ABSTRAKSI: Salah satu permasalahan yang signifikan dalam kategorisasi teks adalah dimensionalitas data yang sangat tinggi yang menyebabkan waktu pemrosesan menjadi lebih lama. Salah satu cara untuk mengatasi hal tersebut adalah dengan melakukan feature selection. Feature selection dilakukan untuk memilih fitur-fitur penting dan relevan terhadap data dan membuang fitur-fitur yang tidak berpengaruh. Dengan demikian, dimensionalitas data dapat dikurangi.
Dalam tugas akhir ini, permasalahan yang diangkat berkaitan dengan feature selection menggunakan Information Gain dan Chi-Square, pada kategorisasi teks dengan classifier N-gram. Kategorisasi dilakukan dengan menghitung jarak profil kategori ke profil dokumen, di mana profil dibentuk dari fitur-fitur yang ada. Sehingga jumlah fitur sangat mempengaruhi waktu yang dibutuhkan dalam proses kategorisasi. Hasil F-measure yang didapatkan pada kategorisasi teks dengan N-gram tanpa feature selection adalah 0.89, di mana gram yang digunakan adalah 2-gram. Dan ketika mengalami feature selection dengan menggunakan Information Gain sebanyak 80 %, F-Measure meningkat menjadi 0.935, serta ketika mengalami feature selection sebanyak 20 % dengan Chi-Square, F-Measure meningkat menjadi 0.94.
Proses pemilihan fitur dengan menggunakan Information Gain lebih cepat dibandingkan dengan Chi-Square. Akan tetapi, secara keseluruhan performansi yang dihasilkan oleh fitur-fitur hasil pemilihan Chi-Square memberikan hasil yang lebih baik.Kata Kunci : feature selection, 2-gram, Information Gain, Chi-Square, F-Measure.ABSTRACT: One of the significant problem in the text categorization is high dimentionality of data that cause a long processing time. One of the severals ways to overcome this problem is doing feature selection phase to the data before categorization process. The goal of feature selection is to produce important and relevant features. Therefore, the data dimensionality can be reduced.
In this final task, the research is about feature selection using Information Gain and Chi-Square in N-Gram text categorization. Categorization is done by counted the distance of category profile and the document profile, where the profiles is made from the features existed. Therefore, the number of the feature is have a high influence in the time needed for categorization process. In the text categorization using N-gram without feature selection, the result shows that F-measure give a value of 0.89, where 2-gram is used here. When feature selection is done by Information Gain to the number of 80 %, F-measure value increase up to 0.935. And When feature selection is done by Chi-Square to the number of 20 %, F-measure value increase up to 0.94.
Selecting feature using Information Gain feature selection is faster than selecting feature using Chi-Square feature selection. However, the performace of text categorization using features from the feature selection proses by Chi-square is better.Keyword: feature selection, 2-gram, Information Gain, Chi-Square, F-Measure.