ABSTRAKSI: Information Retrieval (IR) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents melalui pencarian query yang diinputkan user. Dalam information retrieval terdapa dua jenis dokumen yaitu free text document (unstructured document) dan fielded text (structured document). Salah satu jenis dokumen fielded text adalah HTML. Dalam pencarian dokumen fielded text, terutama dokumen HTML harus diperhatikan adanya tingkat kepentingan dari bagian yang membangun dokumen tersebut, yang disebut dengan static rank. Static rank dibedakan berdasarkan tag, dalam dokumen HTML terdapat tag title, keywords, head, body, span, dll.
GBM merupakan salah satu metode yang dapat menerapkan perhitungan static rank dan IR score, untuk mendapatkan perhitungan static rank dalam tugas akhir ini menggunakan metode Pagerank. Performansi dari implementasi metode GBM akan dilihat berdasarkan kecocokan dokumen dengan kata kunci (query) yang selanjutnya disebut sebagai nilai relevansi.
Dari hasil pengujian didapatkan bahwa dengan parameter precision, recall dan IAP metode inverse kuadrat lebih unggul dibandingkan dengan metode yang lain. (12). Untuk pengujian perubahan nilai boost factor pada dokumen HTML , hasil performansi system terutama dilihat dari nilai IAP, yang lebih baik adalah ketika menggunakan boost factor default [Ahmad, 2011] {(keywords=4), (title=4), (head=3), (body=2), (span=2)}, dimana field keywords dan field title memiliki tingkat kepentingan yang sama dan paling tinggi dibandingkan tiga field lain.Hal ini dikarenakan proporsi atau pemberian nilai boost factor yang seimbang pada skenario default, sesuai urutan tingkat kepentingan dari tiap field dalam dokumen berdasarkan asumsi. Tetapi, hal ini tidak terlepas dari faktor lain, yaitu keberagaman ada / tidaknya field yang diujikan dalam skenario di dalam masing – masing dokumen.Kata Kunci : Information Retrieval, Information Retrieval System, Gravitation Based Model, precision,recall, IAP , document collection dan query.ABSTRACT: Information Retrieval is a method which is used for search document, and can be fited for user need of information and documents. By developing the mathematic concept of Information Retrieval method, we can get the improvement of document search application from document collection. In information retrieval, there are two types of documents, namely the free text (unstructured document) and fielded text (structured document). HTML document is one kind of the fielded text. Searching in HTML documents must consider a factor of importance of each part of the document. Those factors, hereinafter referred as static rank, can be distinguished based on tags or markup in HTML documents, such as title, text, inlinks, obj, type, etc.
GBM method is a kind of method that applying the IR score and static rank, PageRank is used to get the static rank. GBM method is implemented in the scope of the document weighting, which having a certain calculation of the field (tag) that is affected by certain boost factors. The performances of this method are based on suitability GBM documents with keywords (queries), hereinafter referred as value relevance.
Based on results of testing, it can be concluded that the results of system performance (precision, recall and IAP / interpolated average precision) is best obtained when using the inverse kuadrat method rather that eksponensial negative method. On boost factor scenario, it is best obtained when using the default scenario [Ahmad,2011] {(keywords=4), (title=4), (head=3), (body=2), (span=2)}. This is caused by the given proportion off boost factor value equal to the default scenario, in order of importance of each field in the document based on assumptions. However, there is another factor that must be considered. This is the diversity of the field (tag) existence which is tested in the scenario in each of documents.Keyword: Information Retrieval, Information Retrieval System, Gravitation Based Model, precision,recall, IAP , document collection dan query.