Kombinasi IR Score dan Static Rank dalam Information Retrieval System Menggunakan Metode Okapi (BM25F) (Studi Kasus : Dokumen HTML)

Ahmad Harminto

Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Sebuah mesin pencari dituntut dapat memberikan hasil pencarian yang tepat dan benar – benar relevant terhadap keinginan user. Konsep dari mesin pencari ini menggunakan information retrieval. Dalam informatian retrieval, terdapat dua jenis dokumen, yaitu free text (unstructured document) dan fielded text (stuctured document). Dokumen HTML merupakan salah satu jenis fielded text. Dalam pencarian dokumen dalam bentuk HTML, harus diperhatikan adanya faktor tingkat kepentingan dari setiap bagian dari dokumen. Faktor – faktor tersebut, yang selanjutnya disebut sebagai static rank, dapat dibedakan berdasar tags atau markup dalam dokumen HTML tersebut, seperti title, text, inlinks, obj, type dll.

Metode BM25F merupakan salah satu metode yang menerapkan perhitungan IR score dan static rank. Metode BM25F diimplementasikan pada ruang lingkup pembobotan dokumen (weighting), dimana didalam metode ini terdapat perhitungan khusus terhadap field (tag) tertentu yang dipengaruhi oleh boost factor. Performansi dari implementasi metode BM25F akan dilihat berdasarkan kecocokan dokumen dengan kata kunci (query) yang selanjutnya disebut sebagai nilai relevansi.

Dengan menerapkan metode BM25F diperoleh bahwa, dengan perubahan banyaknya jumlah dokumen (N) serta jumlah dokumen relevant dengan proporsi tetap yang digunakan, nilai performansi berdasarkan parameter precision dan recall dari information retrieval system menggunakan metode BM25F menghasilkan performansi yang baik, yaitu cenderung mendekati nilai yang stabil.

Dari hasil pengujian pada skenario boost factor, dapat disimpulkan bahwa hasil performansi sistem (precision, recall dan IAP / interpolated average precision) yang paling baik didapat pada saat menggunakan skenario default ({title = 4};{H1 = 3};{anchor = 2};{span = 2};{text = 1};). Hal ini dikarenakan proporsi atau pemberian nilai boost factor yang seimbang pada skenario default, sesuai urutan tingkat kepentingan dari tiap field dalam dokumen berdasarkan asumsi. Tetapi, hal ini tidak terlepas dari faktor lain, yaitu keberagaman ada / tidaknya field yang diujikan dalam skenario di dalam masing – masing dokumen.Kata Kunci : information retrieval, information retrieval system, BM25FABSTRACT: A search engine must be able to precise a relevant result that the user demand. Search engine is a system that used information retrieval concept. In information retrieval, there are two types of documents, namely the free text (unstructured document) and fielded text (structured document). HTML document is one kind of the fielded text. Searching in HTML documents must consider a factor of importance of each part of the document. Those factors, hereinafter referred as static rank, can be distinguished based on tags or markup in HTML documents, such as title, text, inlinks, obj, type, etc.

BM25F method is one kind of method that applying the IR score and static rank. BM25F method is implemented in the scope of the document weighting, which having a certain calculation of the field (tag) that is affected by certain boost factors. The performances of this method are based on suitability BM25F documents with keywords (queries), hereinafter referred as value relevance.

By applying BM25F method it was discovered that, with changes in the large number of documents (N) and the number of relevant document to the proportion remains in use, the value of performance based on precision and recall of information retrieval system using BM25F method produces a good performance, which is likely to approach a stable state.

Based on results of testing on boost factor scenario, it can be concluded that the results of system performance (precision, recall and IAP / interpolated average precision) is best obtained when using the default scenario ({title = 4}; {H1 = 3}; {anchor = 2};} {span = 2}; {text = 1};). This is caused by the given proportion off boost factor value equal to the default scenario, in order of importance of each field in the document based on assumptions. However, there is another factor that must be considered. This is the diversity of the field (tag) existence which is tested in the scenario in each of documents.Keyword: information retrieval, information retrieval system, BM25F


Informatika Teori dan Pemrograman


Ade Romadhony, Yanuar Firdaus A.W.


Universitas Telkom




