ABSTRAKSI: Klasterisasi adalah proses mengelompokkan data ke dalam suatu kelompok (klaster) sehingga objek pada suatu klaster memiliki kemiripan yang sangat besar dengan objek lain pada klaster yang sama, tetapi memiliki ketidakmiripan yang besar dengan objek pada klaster lain.
Banyak algoritma klasterisasi ditujukan untuk data yang bersifat numerik. Salah satunya adalah algoritma hierarchical clustering yang mengelompokkan objek dengan membuat suatu hirarki dimana objek yang mirip akan ditempatkan pada hirarki yang berdekatan dan objek yang tidak mirip pada hirarki yang berjauhan. Namun, permasalahan timbul ketika algoritma tersebut diterapkan pada data yang mempunyai nilai atribut yang bersifat boolean atau kategorik. Seringkali objek data yang mempunyai nilai similarity yang kecil dikelompokan menjadi satu klaster meskipun objek-objek tersebut tidak mempunyai kesamaan item.
Untuk menangani masalah data kategorik, dalam Tugas Akhir ini digunakan algoritma ROCK (RObust Clustering using linKs) yang melakukan klasterisasi dengan cara mengelompokan data yang mempunyai link (jumlah item yang sama) paling banyak dengan tetangganya (neighbor) dengan parameter jumlah klaster (k) dan θ (threshold).
Ditunjukkan dalam Tugas Akhir ini bahwa algoritma ROCK menghasilkan cohesion dan separation rata-rata yang lebih baik dan dapat menangani outlier pada data dengan baik dibandingkan dengan algoritma hierarchical clustering.
Kata Kunci : klasterisasi, klaster, data kategorik, hierarchical clustering, robust clustering using linksABSTRACT: Clustering is a process of grouping data into a group or cluster, so that the objects in a cluster has a very large similarity with other objects in the same cluster, but not similar to objects in other clusters.
Many clustering algorithms are used for numerical data. One of them is hierarchical clustering algorithm that is build a hierarchy of clusters where similar objects will be placed on the same hierarchy and not similar objects that are far apart on the hierarchy. However, problems arise when the algorithm was applied to data that have boolean or categorical attribute. The data object that has a small similarity often grouped into one cluster altough the data has no common characteristic between its object.
To remedy the problem of categorical data, this final project uses ROCK (RObust Clustering using linKs) algorithm that perform clustering by grouping the data objects that have links at most between pairs of objects with number of clusters (k) and θ (threshold) value as parameter.
This final project shows that ROCK algorithm produces average of cohesion and separation and can handles outlier data better than hierarchical clustering algorithm.
Keyword: clustering, cluster, categorical data, hierarchical clustering, robust clustering using links