ABSTRAKSI: Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu kategorisasi terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasifikasi. Akan tetapi, masalah utama yang terjadi pada kategorisasi artikel ini adalah tingginya dimensi dari data yang dapat mengganggu kategorisasinya itu sendiri. Oleh karena itu, harus dilakukan pemilihan terhadap beberapa atribut yang dapat berpengaruh besar terhadap hasil kategorisasi, yaitu Feature Selection.
Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan efektivitas dari classifier. Beberapa mekanisme feature selection telah dikembangkan dalam pengklasifikasian teks, seperti mutual information dan chi-square yang telah dianggap sebagai mekanisme yang efektif.
Pada Tugas Akhir ini, akan dibahas sebuah metode lain yang dikenal dengan nama within class popularity yang digunakan untuk pengklasifikasian teks. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang berasal dari web dan menggunakan beberapa classifier, seperti: Naïve Bayes, dan k-Nearest Neighbor (kNN).
Selain itu, dilakukan pula analisis perbandingan terhadap metode within class popularity dengan mutual information dan chi-square dengan menggunakan classifier dan berdasarkan hasil analisis diketahui bahwa within class popularity memliki kinerja yang lebih baik dibanding mutual information dan chi-square.Kata Kunci : within class popularity, feature selection, klasifikasi teks, classifierABSTRACT: With the development of technology, large numbers of information like news articles are available on the internet. Hence text categorization is needed by applying classification as one of data mining task. However, the major problem of text categorization is the high dimensionality of data. Therefore, we need to select some representative attributes to improve performance of text categorization. One of technique to do this is feature selection.
Feature selection can reduce the high dimensionality, so, the effectiveness of classifier improves. A number of Feature selection mechanisms have been explored in text classification, among which mutual information, information gain, and chi-square are considered most effective.
In this final assessment, will be discussed the other methods known by the name of Within Class Popularity that is used for text classification. The dataset used is Indonesian language news articles from the web and using multiple classifiers, such as Naive Bayes, and k-Nearest Neighbor (kNN).
In addition, also conducted a comparative analysis of within class popularity methods with mutual information and chi-square by using the classifiers and based on the analysis results is known that within class popularity have better performance than the mutual information and chi-square.Keyword: Text classification, within class popularity, Feature selection, classifier