Implementasi Focused Crawler dengan Menggunakan Content Similarity dan Link Structure Analysis

Rendy Herdiansyah Rosman

Implementasi Focused Crawler dengan Menggunakan Content Similarity dan Link Structure Analysis

Rendy Herdiansyah Rosman

Informasi Dasar

Implementasi Focused Crawler dengan Menggunakan Content Similarity dan Link Structure Analysis

Dilihat

383 kali

No. Katalog

113051060

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Focused crawler adalah crawler yang khusus mendownload halaman web yang sesuai dengan topik yang ditentukan oleh pengguna. Tugas utama dari focused crawler adalah mengumpulkan sebanyak-banyaknya halaman web yang relevan sesuai dengan topik yang telah ditentukan. Tidak semua halaman web didownload dalam sebuah web site, tetapi hanya halaman web yang berkaitan dengan topik saja yang akan disimpan, sehingga dapat menghemat penggunaan resource dari server.

Tugas Akhir ini mengimplementasikan sebuah focused crawler dengan menggunakan metode cosine similarity, link score, dan traverse irrelevant page. Metode cosine similarity digunakan untuk menentukan apakah sebuah halaman web dinyatakan sesuai dengan topik yang dicari. Metode link score digunakan untuk memandu crawler ke arah mana kira-kira akan mendapatkan halaman web yang relevan dengan topik. Metode traverse irrelevant page merupakan teknik penelusuran halaman web yang tidak relevan untuk mendapatkan halaman web yang relevan di dalam-nya.

Hasil pengujian menunjukkan bahwa focused crawler akan mendapatkan nilai precision rate yang optimal dengan menggunakan metode traverse irrelevant page dengan kedalaman level 0. Focused crawler ini juga dapat diimplementasikan dengan menggunakan seed url yang keterkaitan nya dekat dengan topik maupun seed url yang hanya sedikit keterkaitan nya dengan topik. Performansi dari focused crawler dilihat dari parameter precision rate dan waktu komputasi juga akan optimal jika menggunakan seed url yang sedikit keterkaitan nya dengan topik.Kata Kunci : focused crawler, cosine similarity, link score, traverse irrelevant page, weight table.ABSTRACT: Focused crawler is a crawler to download specific web pages that match the topic specified by the user. The main task of focused crawler is to collect as more as possible relevant web pages according to the given topic. Not all web pages download in a web site, but only the web pages related to topics that will be stored, thus saving resource usage of the server.

This final project, will implement a focused crawler using the cosine similarity, link score, and traverse irrelevant page method. Cosine similarity method used to determine whether a web page is relevant to the topic or not. Link score method is used to guide crawlers which direction will approximately get a web page relevant to the topic. Traverse irrelevant page method is a technique to traversing web pages that are not relevant, to obtain relevant web pages in it.

Testing results show that the focused crawler will get the optimal value of the precision rate by using the traverse irrelevant pages method with depth level 0. Focused crawlers can also be implemented using seed urls his close association with the topic, as well as seed urls his little relevance to the topic. Performance of the focused crawler seen from the precision rate aspect and computational time aspect will also be optimal if using seed urls that his little relevance to the topic.Keyword: focused crawler, cosine similarity, link score, traverse irrelevant page, weight table.