Pengelompokan Teks Menggunakan Algoritma Canopy CLustering

Agha Dwi Nugraha

Informasi Dasar

161 kali
113060284
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Peningkatan jumlah dokumen dalam format teks yang cukup signifikan belakangan ini membuat proses pengelompokan dokumen (document clustering) menjadi penting. Pengelompokan dokumen bertujuan membagi dokumen kedalam beberapa kelompok (cluster) sehingga dokumen-dokumen yang mempunya tingkat kesamaan tinggi termasuk dalam cluster yang sama dan yang mempunyai mempunya kesamaan rendah termasuk dalam cluster yang berbeda. Untuk melakukan pengelompokan tersebut, digunakan salah satu algoritma clustering yaitu Canopy Clustering. Canopy Clustering merupakan pengembangan dari Kmeans clustering. Algoritma ini dapat mengatasi permasalah yang terdapat pada K-means dalam masalah akurasi dan waktu proses untuk set data yang besar. Clustering dari nilai parameter T. Parameter ini berfungsi sebagai ukuran cluster pada pembentukan Canopy. Untuk mengukur similarity antar dokumen sebelum proses clustering digunakan Euclidean distance.

Pada tugas akhir ini cluster yang dihasilkan diukur akurasinya menggunakan precision, recall, dan F1-measure . Berdasarkan percobaan yang dilakukan bahwa Canopy Clustering dengan menggunakan K-means lebih tinggi tingkat akurasinya dan lebih sedikit waktu prosesnya dibandingkan dengan Algoritma K-means murni.Kata Kunci : Canopy Clustering, K-means , ClusteringABSTRACT: An increasing number of documents in text format significantly lately makes the process of grouping documents (document clustering) becomes important. Grouping the document aims to divide the document into several groups (clusters) so that the documents possessed a high degree of similarity are included in the same cluster and possessed similarities that have low included indifferent clusters. To perform such clustering,clustering algorithms used one of the CanopyClustering. Canopy Clustering is a development of the Kmeans clustering. This algorithm can overcome the problems found on the Kmeans in amatter of accuracy and processing time for large data sets. Clustering of the value of the parameter T.This parameter serves as the cluster size on the formation of Canopy. To measure the similarity between the documents before the clustering process used Euclidean distance.

In this final cluster resulting accuracy is measured using precision,recall, and F1-measure. Based on experiments conducted that Canopy Clustering using K-means higher level of accuracy andless time to process compared to the K-means algorithm .Keyword: Canopy Clustering, K-means, Clustering

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Pengelompokan Teks Menggunakan Algoritma Canopy CLustering
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Agha Dwi Nugraha
Perorangan
Angelina Prima Kurniati, Intan Nurma Yulita
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini