KLASIFIKASI DOKUMEN WEB DENGAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

Hiskia Edy Pasaribu

KLASIFIKASI DOKUMEN WEB DENGAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

Hiskia Edy Pasaribu

Informasi Dasar

KLASIFIKASI DOKUMEN WEB DENGAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

Dilihat

402 kali

No. Katalog

113030242

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Seiring dengan pertumbuhan situs di internet yang sangat pesat, perlu dilakukan penyusunan dan pengorganisasian dokumen web (webpage) agar memudahkan pencarian, pengelolaan, dan mendapatkan informasi sesuai dengan kebutuhannya. Proses klasifikasi adalah solusinya yaitu dengan menggunakan machine learning.
Dari pengujian sebelumnya, metoda machine learning yang digunakan adalah Support Vector Machine (SVM), tetapi yang menjadi salah satu kelemahannya adalah klasifikasi yang dihasilkan oleh classifier SVM itu tidak dapat diketahui apakah merupakan suatu dugaan atau jawaban yang pasti. Dalam tugas akhir ini akan dilakukan suatu pendekatan baru dalam mengklasifikasikan dokumen web menggunakan SVM agar klasifikasi yang dihasilkan menjadi reliable, yaitu dengan menerapkan Version Space (VS). Version space adalah sebuah pendekatan untuk mendapatkan klasifikasi yang reliable. Ide utamanya adalah membangun version space yang mengandung sekumpulan fungsi hipotesis. Rule dari version space yang disebut dengan unanimous voting rule, akan digunakan untuk menjamin bahwa jika suatu data baru diklasifikasikan maka data tersebut benar diklasifikasikan.
Dalam tugas akhir ini akan dilakukan analisis terhadap hasil training dan testing. Pengujian juga akan menerapkan feature selection. Hasil dari penelitian menunjukkan bahwa performansi paling optimal diperoleh saat menerapkan feature selection yaitu 82.35 % pada domain data pertama dengan hanya menggunakan 60-90 atribut dari total 175 atribut, dan 80 % pada domain data kedua dengan hanya menggunakan 30 atribut dari total 214 atribut.
Kata Kunci : klasifikasi, preprocesing, reliable, SVM, VS, webpage.ABSTRACT: Along with the growth of sites on the Internet that is very fast, needs to be done preparation and organization of web documents (webpages) for easier search, manage, and obtain information in accordance with their needs. The process of classification is the solution that is by using machine learning.
The method of machine learning that used previously is Support Vector Machine (SVM), but the one of weakness of SVM is the classification that produced by classifier of SVM can’t be known whether an assumpsion or definite answer. In this final task will be done a new approach in classfying web documents using SVM in order to the classification that produced by classifier SVM become reliable, that is by applying the Version Space (VS). Version space is an approach to obtain a reliable classification. The key idea is to construct version space containing a set of hypotheses. Rule of the version space that called unanimous vote rule will be used to quarantee that if a new data classified then it correctly classified.
In this final assignment will be done an analysis to the results of training and testing. This task will also apply feature selection. Results of the task showed that the optimal performance obtained when applying feature selection that is 82.35% in the first domain by using only 60-90 attributes of total 175 attributes, and 80% in the second domain by using only 30 attributes of total 214 attributes.
Keyword: classification, preprocesing, reliable, SVM, VS, webpage.