Senin, 01 Juli 2013

WEB CONTENT, WEB & PRILAKU PENGGUNAAN / INTERAKSI MANUSIA-KOMPUTER DAN STRUKTUR WEB & ANALISA WEB





Web Content


Content dalam website adalah segala sesuatu yang dapat dilihat oleh pengunjung baik berupa gambar, tulisan, animasi, video, suara, tombol navigasi dan sebagainya. Jadi jika kita mengunjungi suatu website sebenarnya yang kita kunjungi adalah content. Pengaturan content ini dilakukan pada saat pemograman website (coding), entah itu jenis contentnya, warna, posisi dan sebagainya. Hal inilah yang mendasari perencanaan pembuatan website harus dilakukan sebaik mungkin, karena content-content yang akan ditampilkan pada website baik posisi maupun jenisnya akan ditentukan dari sini.
 
Media Standard Penggunaan Web Content
Arsitektur Website adalah suatu pendekatan terhadap desain dan perencanaan situs yang, seperti arsitektur itu sendiri, melibatkan teknis, kriteria estetis dan fungsional. Seperti dalam arsitektur tradisional, fokusnya adalah benar pada pengguna dan kebutuhan   pengguna. Hal ini memerlukan perhatian khusus pada konten web, rencana bisnis, kegunaan, desain interaksi, informasi dan desain arsitektur web. Untuk optimasi mesin pencari yang efektif perlu memiliki apresiasi tentang bagaimana sebuah situs Web terkait dengan World Wide Web.

Model Pembelajaran Generatif
Pembelajaran generatif (PG) merupakan terjemahan dari Generative Learning (GL). Berdasarkan model transformasi pengetahuan menurut konstruktivis telah diajukan beberapa model pembelajaran lain. Salah satu model pembelajaran diusulkan oleh Osborne dan Wittrock pada tahun 1985 adalah model pembelajaran generatif karena didasarkan pada teori belajar generatif dimana pembelajaran generatif merupakan suatu model pembelajaran yang menekankan pada pengintegrasian secara aktif pengetahuan baru dengan menggunakan pengetahuan yang sudah dimiliki siswa sebelumnya. Pengetahuan baru itu akan diuji dengan cara menggunakannya dalam menjawab persoalan atau gejala yang terkait. Jika pengetahuan baru itu berhasil menjawab permasalahan yang dihadapi, maka pengetahuan baru itu akan disimpan dalam memori jangka panjang.
Model pembelajaran generatif berbasis pada pandangan konstruktivisme, dengan asumsi dasar bahwa pengetahuan dibangun dalam pikiran siswa. Hal ini ditegaskan Wittrock bahwa intisari dari pembelajaran generatif adalah otak tidak menerima informasi dengan pasif, melainkan justru dengan aktif mengkonstruksi suatu interpretasi dari informasi tersebut dan kemudian membuat kesimpulan.
Model pembelajaran generatif merupakan salah satu model pembelajaran yang dilakukan dengan tujuan agar siswa secara aktif mengkonstruksi pengetahuan dalam pembelajaran. Dalam teori belajar generatif merupakan suatu penjelasan tentang bagaimana seorang siswa membangun pengetahuan dalam fikirannya seperti membangun ide tentang arti sutau istilah dan membangun strategi agar sampai pada suatu penjelasan tentang pertanyaan “bagaimana” dan “mengapa”

Model Rhetorical
Model komunikasi yang digunakan oleh Aristoteles pada dasarnya adalah model komunikasi paling klasik, model ini disebut model retoris (rhetorical model). Inti dari komunikasi ini adalah persuasi, yaitu komunikasi yang terjadi ketika seorang pembicara menyampaikan pembicaraannya kepada khalayak dalam mengubah sikap mereka. Ilmu retorika pada awalnya dikembangkan di Yunani berkaitan dengan ilmu tentang seni berbicara (Techne Rhetorike).
Dalam bukunya yang berbicara mengenai Rhetorica, Aristoteles berusaha mengkaji mengenai ilmu komunikasi itu sendiri dan merumuskannya kedalam model komunikasi verbal. Model komunikasi verbal dari Aristoteles ini merupakan model komunikasi  pertama dalam ilmu komunikasi. Ia juga menuliskan bahwa suatu komunikasi akan berjalan apabila ada 3 unsur utama komunikasi yaitu pembicara (speaker), pesan (message), dan pendengar. Aristoteles memfokuskan komunikasi pada komunikasi retoris atau yang lebih di kenal saat ini dengan komunikasi publik (public speaking) atau pidato, sebab pada masa itu seni berpidato terutama persuasi merupakan keterampilan penting yang dibutuhkan pada bidang hukum seperti pengadilan, dan teori retorika berpusat pada pemikiran mengenai retorika (mempersuasif).
Perlu diingat bahwa model komunikasi ini semakin lama semakin berkembang, tapi selau akan ada tiga aspek yang selalu sama dari masa ke masa, yaitu : sumber pengirim pesan, pesan yang dikirimkan, dan penerima pesan.

Web Annotation
Sebuah penjelasan web anotasi secara online terkait dengan sumber daya web, biasanya sebuah halaman web. Dengan sistem penjelasan Web, pengguna dapat menambah, mengubah atau menghapus informasi dari sumber daya Web tanpa memodifikasi sumber daya itu sendiri. Penjelasan dapat dianggap sebagai lapisan di atas sumber daya yang ada, dan ini lapisan penjelasan biasanya dilihat oleh pengguna lain yang berbagi sistem penjelasan yang sama. Dalam kasus tersebut, alat anotasi web adalah jenis perangkat lunak sosial. Untuk sistem anotasi teks berbasis Web, lihat teks penjelasan. Web penjelasan dapat digunakan untuk tujuan berikut:
1.   untuk menilai sumber daya Web, seperti dengan kegunaannya, user-keramahan, kesesuaian untuk dilihat oleh anak di bawah umur.
2.  untuk meningkatkan atau menyesuaikan isinya dengan menambahkan / menghapus  materi, sesuatu seperti wiki.
3.     sebagai alat kolaboratif, misalnya untuk membahas isi dari suatu sumber daya  tertentu.
4. sebagai media kritik seni atau sosial, dengan memungkinkan pengguna Web untuk menafsirkan, memperkaya atau memprotes institusi atau ide-ide yang muncul di Web.
5.     untuk mengukur hubungan antara fragmen transien informasi.


Tags
Tags atau Keywords adalah penting dalam pemasaran di Internet , dengan ini kemungkinan peselancar mangunjungi website bisa diarahkan, dan sesuai dengan keyword “Informatika” maka anda dapat membandingkan dari bermacam-macam search engine atau social bookmark. Berikut ini adalah tinjauan bermacam-macam search engine yang merujuk pada keyword atau tag yang sama yaitu “Informatika dan yang berkaitan”. Search engine itu antara lain : Google Blog Search, Yahoo Search , Technorati Tags, Del.icio.us Tags, LiveJournal Tags, 43 Things Tags, Buzzwords (Buzznet) Tags.

Metadata
Metadata biasa didefinisikan sebagai “data tentang data” atau dapat juga disebut dengan “informasi mengenai suatu data”. Metadata mendeskripsikan isi, kualitas, kondisi, dan karakteristik lainnya mengenai suatu data yang ditulis dengan format standard.

Metadata memiliki fungsi yang sama seperti katalog yaitu untuk:
1.      mengidentifikasi suatu data
2.      mengelompokkan data yang serupa
3.      membedakan data menurut kriteria tertentu
4.      memberikan informasi penting berkaitan dengan data

Rich Snippets
Rich Snippets adalah data tambahan dari blog/postingan kamu yang akan ikut ditampilkan pada halaman mesin pencarian (SERP). Berbagai data yang bisa dimasukkan seperti rating, vote, author, tanggal, file audio, resep masakan, produk (harga, stok, dsb), event, dan banyak yang lainnya.




Web dan Perilaku Penggunaan / Interaksi Manusia-Komputer
Adalah sebuah hubungan antara manusia dan komputer yang mempunyai karakteristik tertentu untuk mencapai suatu tujuan tertentu dengan menjalankan sebuah sistem yang bertopengkan sebuah antarmuka (interface).

Perilaku Navigasi
pada suatu situs (jual beli khususnya) penggunaan navigasi yang baik sangat penting untuk dilakukan bagi para pembuat online. Para pembuat situs website tersebut harus bisa membuat suatu navigasi agar pengunjung situs tersebut tidak bosan dengan melihatnya. Ada dua tipe navigasi. Yang pertama adalah yang standar, yang memberikan overview dan peta penjelajahan situs. Biasanya bisa ditemukan secara konsisten baik di bagian atas, samping atau footer. Yang kedua adalah navigasi versi advance. Jenis ini masih bertujuan memberikan alat untuk menelusuri situs, namun dengan cara lebih spesifik. Misal lewat kategori, pengarang, produsen, range harga, dan lain lain. Navigasi semacam ini sebenarnya mirip dengan fitur search namun sudah diberi antar muka yang lebih intuitif. Alih-alih model kotak isian teks kosong, calon pembeli diberi beberapa nilai default yang bisa dipakai lewat link yang disediakan. Lebih keren lagi, calon pembeli bisa melakukan penelusuran bertingkat, misalnya: kategori buku, di-drilldown dengan topik IT dan Marketing, di-tune lagi pada level berikutnya dengan range harga 100 ribu sampai 400 ribu, lalu difinalisasi dengan reviewed by NavinoT. Calon pembeli pun akan sampai pada apa yang benar-benar dia cari.
Permasalah dalam kaitan dengan:
1.  Para pemakai interface website tidak mengetahui daerah atau dalam hal ini lembaran- lembaran pada situs.
2.    Struktur lokasi tidak dapat ditemukan.
Pemakai interface situs seharusnya diberikan suatu pemahaman dari struktur yang menyangkut dari suatu ruang dari informasi tersebut. Maka sebaiknya disiapkan:
1.      Tabel Index (Peta Lokasi)
2.      Index
3.      Navigasi
4.      Fasilitas Pencarian (Search)

Perilaku Pencarian
Fitur pencarian internal tentunya telah di desain dengan batasan tertentu. Ketika situs Anda tumbuh tentunya Anda akan semakin tahu pola pemakaian oleh pengguna. Termasuk di dalamnya adalah pola pencarian dalam rangka mendapatkan pengalaman terbaik dalam pemanfaatan situs.
Dalam kasus seperti diatas kita ingin membandingkan 2 situs jual beli online dimana kita liat dari navigasi dan pencarian yang terdapat didalam situs web tersebut.
Seperti kasus diatas kita membandingkan 2 situs jual beli online yang dimana kita dapat melihat perbedaan dari navigasi dan pencarian yang terdapat didalam situs web tersebut. Tokobagus.com merupakan salah satu website atau situs belanja online (e-commerce) yang besar dan terkenal di Indonesia. Website ini masih memiliki accessibility yang belum terpenuhi, sebab penggunaan bahasa pada website ini masih menggunakan bahasa Indonesia, padahal apabila ada translate khusus tiap-tiap negara akan membuat website ini lebih banyak dikunjungi oleh para konsumen lokal maupun asing. Penempatan menu yang terstruktur dan berposisi di pojok kanan atas membuat website ini terlihat menarik dan indah dilihat. Menurut saya, website ini sudah memiliki prinsip available, sebab menu yang mereka tampilkan sudah tersedia semua di tampilan awal, jadi para pengunjung atau konsumen di beri kemudahan dan tidak dipersulit untuk membukanya ke halaman yang lain. Kejelasan pada website ini sudah tidak diragukan lagi, karena adanya penjualan online (e-commerce) di Tokobagus.com. Website Tokobagus.com dapat di akses oleh beberapa browser seperti Mozila Firefox dan Google Chrome tanpa adanya perubahan sedikitpun didalamnya, karena website ini diatur oleh admin, jadi penggunaan tidak bisa dipersonalisasi oleh user.

Web Merefleksikan Perilaku Social
Web dapat merefleksikan perilaku sosial masyarakat dengan menggunakan IP address masyarakat mudah untuk mengakses situs – situs seperti penjualan online, media sosial yang akan mempengaruhi perilaku sosial mereka. Sebagai contoh yang sering terjadi yaitu seseorang yang sering mengakses media sosial seperti facebook, jika orang tersebut mempunyai moral & kepribadian yang tidak baik, awalnya orang tersebut mengajak kenalan dan berpura – pura akrab kemudian orang tersebut  mengajak ketemuan lalu menculik korbannya seperti yang marak sering terjadi saat ini.

Web Mempengaruhi Perilaku Social
Dampak positif diantaranya adalah:
1.  Informasi yang ada di masyarakat dapat langsung dipublikasikan dan diterima oleh   masyarakat.
Sumber informasi tidak hanya berasal dari satu orang saja. Dalam masyarakat, semua orang dapat menjadi sumber informasi. Setiap orang dapat saling bertukar informasi satu sama lain. Informasi itu pun menyebar sampai kepada seluruh lapisan masyarakat dengan cepat melalui media-media TIK yang ada.
2.      Hubungan sosial antar masyarakat dapat berlangsung dimana saja dan kapan saja.
A berada di kota Bandung dan B berada di kota Makassar. Mereka berkomunikasi melalui ponsel. Mereka saling mengabarkan kondisi satu sama lain dan saling bertukar cerita. Itulah sedikit gambaran pemafaatan TIK dalam hubungan interaksi sosial. Walaupun berjauhan dan berada dalam zona waktu yang berbeda, mereka tetap dapat berkomunikasi dan saling bertukar informasi.
3.     Sosialisasi kebijakan pemerintah dapat lebih cepat disampaikan kepada masyarakat.
Peraturan pemerintah serta kebijakannya dapat keluar pada waktu yang tidak dapat diprediksi. Masa berlakunya pun kadang bersifat tentatif. Masyarakat pun sering dibingungkan oleh masalah ini. Karena keterlambatan info, masyarakat dirugikan oleh hal ini. Oleh karena itu, publikasi kebijakan serta peraturan pemerintah memerlukan media TIK, misalnya televisi, radio dan internet. Dengan begitu, masyarakat dapat dengan mudah dan cepat mengetahui peraturan dan kebijakan pemerintah yang sudah maupun baru keluar.
4.     Tumbuhnya sikap percaya diri dan motivasi tinggi.
Masyarakat memiliki rasa percaya diri yang tinggi dengan adanya TIK. Hal ini dibuktikan dari fakta-fakta yang ada di dunia maya, misalnya jejaring sosial. Mereka berani tampil secara terbuka, baik kepada orang yang dikenalnya bahkan yang tidak kenal sama sekali. Mereka mengekspos pribadinya dengan memberikan informasi-informasi yang sedang terjadi, baik itu penting atau tidak. Mereka berlomba-lomba untuk mendapatkan dan menyampaikan info terkini, hal ini juga dapat memperlihatkan tingkat kompetensi antar individu pun semakin besar.
5.     Adanya “share” budaya antar daerah.
Kebudayaan dimiliki oleh setiap kelompok dari setiap daerah dalam setiap bangsa. Tidak hanya dengan penampilan atau pertunjukkan saja budaya itu dipublikasikan. Dengan TIK pun, antar kelompok masyarakat dapat menyampaikan kebudayaan yang dimiliki oleh masing-masing untuk kemudian dipelajari dan dilestarikan. Tidak hanya dalam satu Negara, tetapi dapat juga antar Negara.
Dampak negatif :
1.      Meluasnya Perjudian
2.   Mengurangi sifat sosial manusia karena cenderung lebih suka berhubungan lewat internet daripada bertemu langsung.
3.      Pola interaksi berubah
4.   Mudah belanja lewat internet mengakibatkan budaya konsumsi yang menimbulkan keborosan.
5.      Munculnya pornografi/konten konten dewasa.
6.      Maraknya kejahatan via dunia maya dll.


Struktur Web dan Analisa Web
Yang paling penting ketika membuat sebuah situs web adalah desain konseptual, atau lebih tepatnya penampilan. Selain teks, situs itu sendiri juga harus memiliki grafis yang sangat baik, grafis harus dirancang sedemikian rupa sehingga ketika seseorang mengunjungi situs pertama melihat tata letak grafis nya. Dari latar belakang, header, konten footer dan semua harus diperlakukan sebagai desain web grafis adalah seni menciptakan sebuah website itu sendiri harus terlebih dahulu dari semua terlihat sangat bagus. Dalam program Adobe CS5 Fireworks, Anda dapat melakukan penampilan grafis seluruh website Anda. Setelah Anda mendapatkan ide segera, dan kadang-kadang baginya untuk menjadi dan satu hari. Segala sesuatu yang Anda bisa memikirkan, dan segera menarik lebih ditarik template Anda akan mendapatkan yang asli.



Link Structure, small world

Sebuah jaringan kecil dunia adalah jenis grafik matematika di mana sebagian besar node tidak tetangga satu sama lain, tetapi kebanyakan node dapat dicapai dari setiap lain oleh sejumlah kecil hop atau langkah-langkah. Secara khusus, jaringan-dunia kecil didefinisikan sebagai jaringan di mana L jarak khas antara dua node yang dipilih secara acak (jumlah langkah yang diperlukan) tumbuh secara proporsional dengan logaritma dari jumlah node N dalam jaringan.

Dalam konteks jaringan sosial, hasil ini dalam fenomena dunia kecil dari orang asing yang dihubungkan oleh saling kenalan. Banyak grafik empiris dengan baik dimodelkan oleh jaringan kecil dunia. Jaringan sosial , konektivitas dari internet , wiki seperti Wikipedia, dan jaringan gen semua karakteristik jaringan-dunia kecil pameran.
 
Social Network
Jejaring sosial adalah suatu struktur sosial yang dibentuk dari simpul-simpul (yang umumnya adalah individu atau organisasi) yang dijalin dengan satu atau lebih tipe relasi spesifik seperti nilai, visi, ide, teman, keturunan, dll.
Analisis jaringan jejaring sosial memandang hubungan sosial sebagai simpul dan ikatan. Simpul adalah aktor individu di dalam jaringan, sedangkan ikatan adalah hubungan antar aktor tersebut. Bisa terdapat banyak jenis ikatan antar simpul. Penelitian dalam berbagai bidang akademik telah menunjukkan bahwa jaringan jejaring sosial beroperasi pada banyak tingkatan, mulai dari keluarga hingga negara, dan memegang peranan penting dalam menentukan cara memecahkan masalah, menjalankan organisasi, serta derajat keberhasilan seorang individu dalam mencapai tujuannya.
Dalam bentuk yang paling sederhana, suatu jaringan jejaring sosial adalah peta semua ikatan yang relevan antar simpul yang dikaji. Jaringan tersebut dapat pula digunakan untuk menentukan modal sosial aktor individu. Konsep ini sering digambarkan dalam diagram jaringan sosial yang mewujudkan simpul sebagai titik dan ikatan sebagai garis penghubungnya.

Blog
Blog merupakan singkatan dari web log adalah bentuk aplikasi web yang menyerupai tulisan-tulisan (yang dimuat sebagai posting) pada sebuah halaman web umum. Tulisan-tulisan ini seringkali dimuat dalam urut terbalik (isi terbaru dahulu baru kemudian diikuti isi yang lebih lama), meskipun tidak selamanya demikian. Situs web seperti ini biasanya dapat diakses oleh semua pengguna Internet sesuai dengan topik dan tujuan dari si pengguna blog tersebut.

Pengukuran Web
Di bawah ini ada beberapa tools yang digunakan untuk mengukur website dari segi kecepatan akses dan performanya, serta mengukut banyaknya pengunjung suatu website, berikut ini penjelasan mengenai beberapa tools yang digunakan untuk mengukur kecepatan akses website.
1.    Pingdom Tools merupakan sebuah alat ukur kecepatan website dapat di akses,  nilai  dari sebuah website, dan berapa ukuran dari sebuah website tersebut. Beberapa kelebihannya di kategorikan sebagai berikut  :  
a. Performance Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser cache, combine external css dan lain-lain.
b.Waterfall : melihat detail kecepatan akses ketika membuka halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di akses.
c.   Page Analysis : melihat detail analisa halaman web.
d.   History : melihat detail akses dari beberapa hari lalu.
Kekurangan yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap website tersebut tidak stabil/berjalan dengan baik.

2.  GTmetrix adalah website untuk menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan hasil serta rekomendasi yang harus dilakukan.
Dengan GTmetrix juga dapat membandingkan beberapa URL sekaligus dan jika mendaftar sebagai anggota maka dapat:
a.       Melihat tes sebelumnya untuk membandingkan hasilnya
b.      Menjadwalkan cek website secara otomatis
c.       Menyimpan laporan
d.      Memilih hasil laporan untuk ditampilkan kepublic atau tidak

Kelebihan GTmetrix :
a.       Dapat menggunakan google page speed dan YSLOW sebagai analyze engine
b.      Dapat membandingkan beberapa URL sekaligus
c.       Menjadwalkan cek website secara otomatis
d.      Dapat menyimpan laporan
e.       Memilih hasil laporan untuk ditampilkan kepublic atau tidak.
Kekurangan GTmetrix :
a.       Jika menggunakan GTmetrix harus menggunakan internet yang cepat.

3.      Alexa Rank
Alexa Internet, Inc. adalah perusahaan yang berbasis di California yang mengoperasikan situs yang menyediakan informasi mengenai banyaknya pengunjung suatu situs dan urutannya. Alexa Internet didirikan pada tahun 1996 oleh Brewster Kahle dan Bruce Gilliat. Cara kerja Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan jumlah pengunjung unik. Semakin rendah alexarank dari situs berarti situs memiliki sedikit pengunjung unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke situs Anda, Anda akan mendapatkan lebih rendah alexa rank.

Kelemahan Alexa:
a.   Jika pengguna internet (pengakses situs anda tidak menginstal Alexa Toolbar di browsernya) maka sekalipun ada 1000 pengunjung situs anda dalam sehari, Alexa akan tetap menilai situs anda tidak ada pengunjungnya.
b.    Jika dalam sehari ada yang mengakses situs anda 20 kali dengan alamat IP(Internet protocol) yang sama, maka akan dianggap situs anda hanya dikunjungi oleh 1 satu orang hanya dapat poin 1, akan berbeda jika situs anda dikunjungi oleh 20 orang dengan alamat IP berbeda (unik) maka situs anda akan memperoleh nilai 20 (nilai ini   hanya pengandaian, Alexa mempunyai formula sendiri dalam menentukan nilai sebuah web) .


Kelebihan Alexa :
a.   Alexa rank akan menampilkan tingkat popularitas dari sebuah situs web yang dibandingkan dengan web milik kita,termasuk jangkauan,tampilan halaman,dan masih banyak lagi.
b.  Pencarian analisa akan menampilkan kepada kita yang merupakan syarat untuk kita untuk berkompetisi untuk mendapatkan sebuah traffic 
c. Data pengunjung akan menampilkan kepada kita apa yang menarik dari website kita yang dilihat oleh pengunjun – pengunjung website kita 
d  Data clickstream akan menampilkan kepada kita sebagai pemilik website dimana dalam mendapatkan traffic dari program keanggotaan dan kemitraan.

Search Engine
Mesin pencari atau Search engine adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupun direktori web.
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS

Web Arsip
Pengarsipan web merupakan salah satu bagian dari Portal Web Perpustakaan Digital Nasional RI. Pengarsipan web adalah proses mengumpulkan cuplikan-cuplikan website dan memastikan koleksi tersebut terpelihara dalam satu situs web arsip. Pengarsipan web dilaksanakan untuk memenuhi kepentingan peneliti, sejarawan, dan publik di masa depan. Sehubungan dengan ukuran Web yang masif, maka digunakan program aplikasi web crawler yang bekerja secara otomatis untuk mengembangkan koleksi arsip situs web. Situs web yang diarsipkan utamanya yang memiliki content ilmiah atau mengemukakan sisi intelektualitas suatu objek yang dikemukakan melalui media situs web.
Tujuan utama dibangunnya Perpustakaan Digital Nasional adalah mewujudkan koleksi nasional yang dapat diakses secara cepat, akurat dan merata oleh pemustaka. Secara strategis, tujuan pembangunan Perpustakaan Digital Nasional adalah:
1. Meningkatkan akses ke sumberdaya informasi tersedia dan layanan perpustakaan yang diselenggarakan oleh seluru perpustakaan yang tergabung dalam jaringan (resource sharing);
2. Mempromosikan pemahaman dan kesadaran antarbudaya dalam lingkup nasional, menyediakan sumber belajar, mendorong ketersediaan bahan pustaka dan informasi yang mengandung nilai budaya setempat (local content);
3.      Melestarikan sumber informasi tentang Indonesia;
4.      Mendukung penelitian ilmiah melalui pemanfaatan akses Internet.

Crawler
Focused Web Crawler merupakan suatu  web crawler yang bertujuan secara selektif mencari halaman-halaman web yang relevan dengan himpunan topik tertentu yang telah didefinisikan sebelumnya sehingga crawler tidak mencari seluruh web secara mendalam. Focused Crawler memanfaatkan aturan-aturan keputusan berdasarkan pada analisis isi, struktur link dan teks anchor untuk menjaga agar crawler fokus pada topik tertentu, seperti ”bersepeda” atau ”HIV”. Di sisi lain, web crawler juga dapat difokuskan pada target format dokumen atau non-dokumen tertentu (PDF, Doc, audio dan video).
Heuristik berdasarkan 4 hipotesis dapatb dilibatkan untuk membangun suatu focused crawler terhadap jenis-jenis media terterntu. Keempat hipotesis tersebut adalah (H1) ekstensi file dari bagian FILE dari suatu URI menunjukkan jenis media dari file tersebut. (H2) komponenPATH dari suatu URI menunjukkan jenis media dari file tersebut. (H3) file header Content-type menunjukkan jenis media dari file. (H4) Posisi dari link did alam suatu dokumen HTML menunjukkan jenis media dari target link.
Kinerja dan efisiensi dari suatu focused crawler sangat ditentukan oleh strategi untuk menentukan urutan dari pemrolehan (retrieval) halaman-halaman web. Telah ada suatu topical crawler terintegrasi bernama AuToCrawler yang terdiri dari modul spesifikasi ketertarikan pengguna yang menghubungkan pengguna ke search engine untuk mengidentifikasi contoh halaman target dan kata kunci untuk menetapkan topik. AutoCrawler mengurutkan daftar URL dengan mengkombinasikan fitur dari pendekatan grafik conteks yang diintegrasikan denganpredictor yang mampu mempelajari isi teks, teks anchor, token-token URL dan kata kunci). Strategi BFS, tunnelling dan relevance feedback juga digunakan untuk mengatur fokus penelusuran selama proses crawling.
Kemudian juga telah ada focused crawler bernama Topic-based Intelligent Crawler  (TIC) . Pada TIC setiap halaman web baru yang didownload oleh crawler dibandingkan dengan seed untuk mengetahui relevan tidaknya halaman baru dengan suatu topik. Satu siklus lengkap dari proses ini terdiri dari empat tahapan penting. Pertama dilakukan identifikasi terhadap halaman-halaman hub yang berasosiasi dengan halaman seed. Kedua, halaman seed dan hub-hubnya dibersihkan dan kemudian informasi teks murni di dalamnya diekstrak. Ketiga adalah mengidentifikasi topik untuk setiap halaman dan langkah terakhir adalah menemukan hub-hub dengan topik yang mirip dengan  halaman seed tersebut.
Focused web crawler berbasis ontology juga telah ada, sebagian besar bekerja dengan mengestimasi isi semantik dari suatu URL berdasarkan pada suatu ontology bergantung domain, dalam rangka mendukung metode yang digunakan untuk menentukan prioritas antrian URL. Crawler memelihara suatu antrian URL yang telah dikunjungi pada setiap tingkatan, dan kemudian memilih dari antrian ini, URL berikutnya untuk dikunjungi berbasarkan pada ranking konseptual dari halaman pada level tersebut diperoleh dari ontology domain. Crawler yang dibangun untuk suatu domain khusus tentu tidak dapat digunakan untuk menghimpun halaman-halaman dari domain lain.

Sumber :