ABSTRAKSI: Clustering didefinisikan sebagai klasifikasi yang tidak disupervisi dari pola-pola data ke dalam grup-grup yang disebut juga dengan cluster. Obyeknya adalah untuk kasus pendistribusian (orang-orang, objek, peristiwa, dan lain lain) ke dalam kelompok, sedemikian sehingga derajat tingkat keterhubungan akan kuat antar anggota cluster yang sama dan lemah antar anggota cluster yang berbeda. Clustering yang dilakukan terhadap dokumen-dokumen disebut dengan Document Clustering.
Pada Tugas Akhir ini dimplementasikan suatu algoritma clustering dokumen yang bekerja secara incremental untuk menangani kasus data yang bertambah dengan studi kasus dokumen TA. Salah satu algoritma clustering dokumen adalah algoritma Chung-McLeod. Algoritma Chung-McLeod berbeda dari algortima incremental lainnya karena dapat menangani masalah urutan kedatangan dokumen.
Pengujian dilakukan dengan menghitung akurasi hasil clustering dokumen perangkat lunak yang menggunakan algoritma Chung-McLeod dengan hasil clustering yang dianggap sebagai golden standard dari masukan data yang sama. Akurasi yang diperoleh dari pengujian ini adalah sekitar 75%. Selain itu, dilihat juga pengaruh urutan kedatangan data terhadap hasil cluster perangkat lunak dengan algoritma ini.Kata Kunci : Clustering Dokumen, incremental, Chung-McLeod algorithm,ABSTRACT: Clustering is defined as non supervised classification of patterns of data into groups is called a cluster. The object is for the case of distribution (people, objects, events, etc.) into groups, such that the degree level will be strong connectedness between members of the same cluster and weak between members of different clusters. Clustering is performed on documents called Document Clustering.
In this Final Project implemented a clustering algorithm that works in an incremental document to handle the increasing cases of data with case studies TA document. One of document clustering algorithms is Chung-McLeod algorithm. Chung-McLeod algorithm differs from other incremental algorithms because it can handle the problem of the order of arrival of documents.
Tests carried out by calculating the accuracy of the document clustering software that uses Chung-McLeod algorithm with the results of clustering are considered a golden standard with the same input data. Accuracy obtained from this test is about 75%. Beside that, also seen influence the order of arrival of data on the results of the cluster software with this algorithm.Keyword: Document Clustering, incremental, Chung-McLeod algorithm,