ABSTRAKSI: Dalam text preprocessing, term weighting merupakan salah satu tahapan yang sangat penting. Tahapan ini dilakukan dengan tujuan untuk memberikan suatu nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan terhadap sebuah term bergantung kepada metode yang digunakan untuk membobotinya. Dalam text mining, terdapat beberapa macam metode pembobotan yang diantaranya adalah TF, TF•IDF, dan WIDF.
Pada Tugas Akhir ini, beberapa metode pembobotan kata yaitu TF, TF•IDF, dan WIDF diperbandingkan output-nya terhadap performansi kategorisasi teks. Adapun beberapa parameter yang dijadikan tolok ukur untuk membandingkan performansi dari kategorisasi teks tersebut adalah precision, recall dan f-measure. Untuk menguji output dari hasil pembobotan, digunakan tool klasifikasi yaitu Weka, dengan Naïve Bayes dan Naïve Bayes Updateable sebagai classifier-nya.
Berdasarkan hasil pengujian, didapat bahwa metode pembobotan WIDF memiliki performansi yang lebih baik dibanding metode pembobotan lainnya (TF dan TF•IDF). Secara umum, WIDF mengungguli metode lainnya di sebagian pengujian yang dilakukan. Kelebihan WIDF yang memperhitungkan frekuensi kemunculan suatu term pada suatu dokumen dan menormalisasikannya ke keseluruhan dokumen, membuat metode ini lebih baik dibanding yang lainnya.Kata Kunci : text preprocessing, term, term weighting, TF, TF•IDF, WIDFABSTRACT: In the Text Preprocessing, term weighting is a step that is very important. This step is applied in order to give a value/weight on the term that is contained in a document. The weight given to a term depends on the method that is used for the weighting. In the text mining, there are some term weighting method such as TF, TF•IDF, and WIDF.
In this Final Task, some term weighting methods like TF, TF•IDF, and WIDF, are compared each other by seeing the output of the text categorization performance. Some parameters that will be used as a measurement for comparing the text categorization performance are recall, precision, and f-measure. To test the output of the weighting result, it will be used a classification tool like Weka, with NaiveBayes and Naïve Bayes Updateable as its classifier.
Based on the result, it is concluded that the WIDF weighting method has better performance compared with others weighting method (TF and TF•IDF). Usually, WIDF surpass other methods in almost every testing phase. The benefit of WIDF that counting the term presence frequency in a document and normalize it over document collection, become the advantage compared with other methods. So, this method is better than the others.Keyword: text preprocessing, term, term weighting, TF, TF•IDF, WIDF