ABSTRAKSI: Saat ini halaman web bertambah sangat banyak dan berkembang begitu cepat dan menjadi salah satu sarana penyebaran informasi baik itu personal, sosial maupun komersial. Semakin banyak pula orang yang membutuhkan informasi mengenai topiktopik tertentu misalnya tentang olahraga namun mengalami kesulitan untuk mendapatkan informasi yang relevan. Untuk itu dibutuhkan Web Crawler khusus untuk membantu pengguna internet mencari halaman yang relevan. Web crawler sendiri adalah suatu program yang melakukan proses scanning ke semua halaman-halaman internet untuk dibuat indexnya dan mendukung sebuah search engine.
Berbeda dengan crawler yang dipakai oleh search engine komersial yang pada umumnya bertujuan untuk mengumpulkan halaman Web sebanyak mungkin, focused crawler (juga sering disebut dengan topical crawler) secara selektif menelusuri dan mengambil halaman Web yang relevan dengan topik tertentu. Dalam tugas akhir ini, digunakan classifier Naïve Bayes untuk membedakan halaman web olahraga dan bukan olahraga, serta menggunakan Best First Search sebagai algoritma penelusuran antrian. Pemilihan nilai yang terbaik dilakukan dengan membandingkan skor hasil perhitungan Cosine Similarity.
Ditunjukkan bahwa algoritma best first search dan classifier Naïve Bayes akan membantu menelusuri halaman yang yang relevan terlebih dahulu.Kata Kunci : focused crawler, web olahraga, naïve bayes, best first searchABSTRACT: Currently, web pages are growing fast and evolving rapidly and become one of the means of dissemination of information by personal, social and commercial. The more people who need information on certain topics such as on sports, but find it difficult to obtain relevant information. That requires a Web Crawler specifically to help Internet users find relevant pages. Own Web crawler is a program that does the scanning process to all internet pages to be made indexnya and support a search engine.
Unlike the crawler that used by commercial search engines which generally aim to collect many web page, focused crawler (called as topical crawlers oft) browse and retrieve web pages relevant to a particular topic selectively. In this bachelor thesis, Naive Bayes classifier is used to distinguish the web page instead of sports and non sports web page, and using Best First Search as the crawling algorithm of the queue. Selection of the best value was done by comparing the calculation’s results of Cosine Similarity.
Shown that the best-first search algorithm and the Naive Bayes classifier will help browse the relevant pages first.Keyword: focused crawler, sports web, naïve bayes, best first search