Analisis dan Implementasi Peningkatan Kinerja Pengklasifikasian Multi-CLass Teks dengan Metode Support Vector Machine menggunakan Error-Correcting Output Coding (ECOC)

Algina Kristianti Banfun

Informasi Dasar

76 kali
113070239
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Klasifikasi teks adalah proses pengelompokan dokumen ke dalam kelas yang berbeda, dalam tahapannya tiap dokumen menunjuk pada satu kelas tertentu dan dibutuhkan proses untuk menggali informasi dari dokumen tersebut. Teks preprocessing yang dilakukan pada Skripsi ini mencakup teknik dalam me-retrieve data di antaranya word tokenization, feature selection, dan term weighting hingga merepresentasikan dokumen dalam Vector Space Model. Dalam feature selection, akan dihitung bobot dari semua keyword kemudian diambil keyword yang lebih besar dari nilai threshold. Untuk menghitung bobot keyword, terdapat beberapa metode yang dapat digunakan seperti Term Frequency (TF), TF*IDF (Inverse Document Frequency) dan Information Gain (IG). Dalam melakukan pembobotan term, konsep perhitungan bobot TF dan TFIDF digunakan dengan adanya tambahan teknik normalisasi seperti L1 dan L2.

Peningkatan kinerja dan efisiensi klasifikasi teks dokumen khususnya klasifikasi multiclass dengan sejumlah besar kategori dilakukan dengan menggunakan error-correcting output codes (ECOC). ECOC mengurangi masalah multi-class pada sekumpulan binary classification dan menggabungkan hasil binary classification tersebut untuk mempredikasi kelas / label pada multiclass.

Hasil pengujian menunjukkan bahwa, Pertama, penggabungan metode Support Vector Machine (SVM) dengan Error Correcting Output Coding (ECOC) dapat meningkatkan akurasi jika dibandingkan dengan metode Support Vector Machine (SVM) pada saat jumlah data yang digunakan adalah 10%, 25%, 75% dan 100% terhadap jumlah data pada tiap kategori. Kedua, penggabungan metode Support Vector Machine (SVM) dengan Error Correcting Output Coding (ECOC) dapat meningkatkan akurasi jika dibandingkan dengan metode Support Vector Machine (SVM) pada saat nilai threshold-nya lebih besar dari 0.03. Ketiga, penggabungan metode Support Vector Machine (SVM) dengan Error Correcting Output Coding (ECOC) dapat meningkatkan akurasi jika dibandingkan dengan metode Support Vector Machine (SVM) pada saat Term Weighting tanpa adanya normalisasi dan keempat, penggabungan metode Support Vector Machine (SVM) dengan Error Correcting Output Coding (ECOC) dapat meningkatkan akurasi jika dibandingkan dengan metode Support Vector Machine (SVM) pada saat penggunaan parameter SVM (C) yang besar, kernel polynomial dengan degree yang kecil dan RBF kernel dengan nilai gamma yang besar.Kata Kunci : Klasifikasi, Support Vector Machine, ECOC, preprocessing, akurasiABSTRACT: Classification is the process of grouping text documents into different classes, in stages where each document is point to any particular class and require process to dig information from the document. Text preprocessing that will be done in this thesis include techniques of retrieving data such as word tokenization, feature selection, and term weighting to represent documents in the Vector Space Model. In feature selection, it will be calculate the weights of all keywords then terms that larger than the limit threshold will be taken. To calculate the weight of keywords, there are several methods that can be used such as Term Frequency (TF), TF * IDF (Inverse Document Frequency) and Information Gain (IG). Conducting the weighting terms, the concept of TF and TFIDF weighting calculation is used with the additional normalization techniques such as L1 and L2.

To improve performance and efficiency of the classification of text documents, especially in multi-class classification with a large number of categories can be done by using errorcorrecting output codes (ECOC). ECOC is multi-class technique that reduces multi-class problem to a set of binary classification and combining the results of binary classification to predict class/multiclass label.

In testing results show that, first, the incorporation method Support Vector Machine (SVM) with Error Correcting Output Coding (ECOC) can improve accuracy when compared with the method of Support Vector Machine (SVM) as the number of data used in 10%, 25%, 75% and 100% of the amount of data in each category. Second, the incorporation method Support Vector Machine (SVM) with Error Correcting Output Coding (ECOC) can improve accuracy when compared with the method of Support Vector Machine (SVM) at its threshold value greater than 0.03. Third, the merger method of Support Vector Machine (SVM) with Error Correcting Output Coding (ECOC) can improve accuracy when compared with the method of Support Vector Machine (SVM) when use Term weighting without normalization and fourth, fusion methods of Support Vector Machine (SVM) with Error Correcting Output Coding (ECOC) can improve accuracy when compared with the method of Support Vector Machine (SVM) when using SVM parameters with C value is large, kernel polynomial with small degree and RBF kernel with a large gamma value.Keyword: Classification, Support Vector Machine, ECOC, preprocessing, accuracy

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisis dan Implementasi Peningkatan Kinerja Pengklasifikasian Multi-CLass Teks dengan Metode Support Vector Machine menggunakan Error-Correcting Output Coding (ECOC)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Algina Kristianti Banfun
Perorangan
Angelina Prima Kurniati, Moch Arif Bijaksana
 

Penerbit

Universitas Telkom
Bandung
2012

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini