ABSTRAKSI: Sebagian besar metode ekstraksi data pada halaman web menggunakan wrapper induction dan automatic data extraction. Metode automatic data extraction muncul karena metode sebelumnya dianggap terlalu rumit. Dalam proses ekstraksi data, automatic data extraction membentuk pattern yang akan dicocokan dengan tag HTML pada halaman web.
Pada Tugas Akhir ini mengimplementasikan metode automatic data extraction dengan menggunakan algoritma yang disebut IDE (Instance-based Data Extraction). Teknik ini melibatkan user dalam pembentukan pattern dengan memberikan label pada halaman web. Pada proses instance-based data extraction ini ada tiga langkah yang utama yaitu, page labeling, similarity measure dan data extraction.
Ketepatan dalam membentuk pattern ekstraksi dapat dilakukan dengan cara mengisi nilai range node sebanyak jumlah node yang terdapat dalam satu template dari target item.
Performansi algoritma IDE dipengaruhi oleh nilai range node yang diberikan. . Jika node yang diambil semakin mendekati pattern target item maka performansi akan semakin baik. Selain itu jenis website yang diekstrak juga ikut mempengaruhi performansi. Website yang memiliki pattern target item (struktur HTML dari data yang akan diekstrak) sederhana akan lebih mudah untuk diekstrak.
Ketika data yang akan diekstrak tidak memiliki pattern yang unik maka algoritma IDE akan kesulitan untuk mengekstrak data yang sesuai dengan keinginan user. Akibatnya di dalam hasil ekstraksi masih terdapat data yang tidak relevan.
Tahap analisis dan pengujian dengan parameter pengujian berupa recall ratio dan precision ratio memberikan hasil bahwa algoritma IDE yang dibangun terbukti bisa mendapatkan informasi sesuai dengan keinginan user meskipun ada beberapa noise.
Kata Kunci : Automatic Data Extraction, pattern, pattern target item, page labeling, similarity measure, data extractionABSTRACT: Most of the data extraction method on web pages using the wrapper induction and automatic data extraction. Automatic data extraction method occurs because the previous method was considered too complicated. In the process of data extraction, automatic data extraction form a pattern that will be fitted with the HTML tags on web pages.
This Final project implemented automatic data extraction method with use algorithm is called IDE (Instance-based Data Extraction). This technique involves the user in forming pattern by labels the web page. In the process of instance-based data extraction are three main steps, i.e, page labeling, similarity measure and data extraction.
Accuracy in shaping the pattern extraction can be done by filling the range node as much as nodes contained in a template of the target item.
IDE algorithm performance is affected by the given value of range node. If the node is drawn closer and closer to the pattern target items then his performance will improve. Moreover, type of website that is extracted also affect performance. Website which has simple pattern target item (the HTML structure of the data to be extracted) is easier to be extracted.
When the extracted data does not have a unique pattern, the IDE algorithm’s will be difficult to extract data according to user desires. There are irrelevant data as a result of the extraction results.
Phase implementation and analysis with testing parameters such as recall ratio and precision ratio shown that built IDE algorithm is proved to obtain information in accordance with the user desires though it is noise.
Keyword: Automatic Data Extraction, pattern, pattern target item, page labeling, similarity measure, data extraction