Hai hai, ketemu lagi di tugas kuliah berikutnya. Kali ini saya akan mengulas sedikit tentang salah satu software web crawler yaitu WIN WEB CRAWLER. Sebenarnya baru semester ini saya mendengar kata web crawler, meskipun masih agak asing di telinga namun ga ada salahnya kita mulai berkenalan dengan si web crawler.
Sebelum mengenal softwarenya Win Web Crawler, mari kita cari tau dulu sebenarnya apa sih web crawler ini?
Web Crawler merupakan sebuah program/script otomatis yang memproses halaman web. Bisa juga disebut sebagai web spider atau web robot. Ide dasarnya sangat simpel dan hampir sama dengan ketika kita sedang menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada sebuah link alamat website, dibuka pada browser kemudian browser melakukan permintaan dan mendownload data dari web server melalui protokol HTTP. Setiap hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah, Web Crawler mengotomatisasikan pekerjaan ini. Jadi, Web Crawler berfungsi mengidentifikasi hyperlink dan melakukan proses kunjungan/visit secara rekursif.
Nah, setelah tahu pengertian dari web crawler, saya akan membahas sekilas tentang aplikasinya yaitu WIN WEB CRAWLER.
Win Web Crawler merupakan aplikasi mesin pencari situs web untuk mendapatkan data secara umum maupun secara khusus dari web tersebut. WWC (Win Web Crawler) mengekstrak semua URL yang sesuai dari hasil pencarian, menghapus duplikat URL dan akhirnya mengunjungi situs-situs terkait dan mengambil data dari sana.
Dengan Win Web Crawler kita dapat menggunakan beberapa mesin pencari untuk digunakan dengan cara mengklik "Engine" kemudian memasukan beberapa search engine yang akan kita gunakan. Win Web Crawler mengirim query ke mesin pencari untuk mendapatkan pencocokan URL website. Berikutnya mengunjungi situs-situs yang cocok untuk ekstraksi data.
Di sini kita perlu memberitahu Win Web Crawler berapa tingkat untuk menggali situs web tertentu. Jika kita ingin Win Web Crawler untuk tetap berada dalam halaman pertama, cukup pilih "Halaman Pertama Proses Saja". Setting "0" akan memproses dan mencari data dalam website secara utuh. Pengaturan "1" akan memproses halaman indeks atau rumah dengan file yang terkait dibawah direktori root dir saja.
Cara menggunakan aplikasi ini cukup mudah, dimulai dengan mebuat sesi baru dengan mengklik New. Kemudian kita memilih sumber apa yang akan kita gunakan baik itu Search Engine, Website ataupun URL. Masukan keyword jika kita memilih Search Engine, starting address bila kita menggunakan website, dan file name jika memilih URL. Kemudian atur settingan sesuai dengan keinginan kita, setelah selesai klik ok.
Dengan Win Web Crawler kita dapat menggunakan beberapa mesin pencari untuk digunakan dengan cara mengklik "Engine" kemudian memasukan beberapa search engine yang akan kita gunakan. Win Web Crawler mengirim query ke mesin pencari untuk mendapatkan pencocokan URL website. Berikutnya mengunjungi situs-situs yang cocok untuk ekstraksi data.
Di sini kita perlu memberitahu Win Web Crawler berapa tingkat untuk menggali situs web tertentu. Jika kita ingin Win Web Crawler untuk tetap berada dalam halaman pertama, cukup pilih "Halaman Pertama Proses Saja". Setting "0" akan memproses dan mencari data dalam website secara utuh. Pengaturan "1" akan memproses halaman indeks atau rumah dengan file yang terkait dibawah direktori root dir saja.
Cara menggunakan aplikasi ini cukup mudah, dimulai dengan mebuat sesi baru dengan mengklik New. Kemudian kita memilih sumber apa yang akan kita gunakan baik itu Search Engine, Website ataupun URL. Masukan keyword jika kita memilih Search Engine, starting address bila kita menggunakan website, dan file name jika memilih URL. Kemudian atur settingan sesuai dengan keinginan kita, setelah selesai klik ok.
Alasan saya memilih Win Web Cruwler karena software ini sangat mudah didapatkan saat kita mencari di search engine, dengan ukuran file yang kecil (sekitar 763 kb) memudahkan kita pada saat proses instalasi software ini. Selain itu software ini pun cukup simpel untuk digunakan.
Kelebihan dari software ini diantaranya :
- Kecepatan tinggi
- Multi-threaded
- Ekstraksi akurat langsung menyimpan data ke file disk
- Program memiliki berbagai filter untuk membatasi sesi, seperti filter URL, teks filter, data filter, domain filter, tanggal dimodifikasi, dll Hal ini memungkinkan tingkat rekursi dapat dipilih oleh pengguna, benang pengambilan, timeout, dukungan proxy dan banyak pilihan lain.