ANALISIS PRINCIPAL COMPONENT ANALYSIS (PCA) PADA UNSUPERVISED LEARNING UNTUK DATA BERDIMENSI TINGGI

FHIRA NHITA

ANALISIS PRINCIPAL COMPONENT ANALYSIS (PCA) PADA UNSUPERVISED LEARNING UNTUK DATA BERDIMENSI TINGGI

FHIRA NHITA

Informasi Dasar

ANALISIS PRINCIPAL COMPONENT ANALYSIS (PCA) PADA UNSUPERVISED LEARNING UNTUK DATA BERDIMENSI TINGGI

Dilihat

338 kali

No. Katalog

113030107

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Preprocessing di dalam data mining adalah salah satu faktor penting dalam menyiapkan data sehingga menghasilkan informasi yang efisien dan berkualitas. Pada unsupervised learning atau clustering, pemrosesan data berdimensi tinggi akan membutuhkan biaya dan waktu komputasi yang besar. Proses clustering pun dapat bekerja lebih baik pada data yang berdimensi sedikit.
Teknik preprocessing yang dibahas pada tugas akhir ini adalah Principal Component Analysis (PCA) dimana data set yang dimensinya besar diringkas menjadi data set dengan dimensi baru yang jumlahnya lebih sedikit. Dimensi yang baru disebut principal component (PC). PC dibentuk dari kombinasi linier dari dimensi asli sehingga data tidak akan kehilangan karakteristik aslinya.
Hasil pengujian sistem menghasilkan data colon tumor dengan 2000 dimensi dapat diringkas menjadi 60 PC dan data set DLBCL dengan 4026 dimensi dapat diringkas menjadi 46 PC. Pada data set colon tumor dan DLBCL, data 1, 2, atau 3 PC dapat memberikan performansi hasil K-Means Clustering yang lebih baik daripada data asli. Untuk metode Two Step Clustering pada data set colon tumor diperoleh performansi PCA yang kurang efektif sedangkan pada data set DLBCL diperoleh performansi PCA yang baik pada data 1 atau 3 PC.
Kata Kunci : data mining, preprocessing, PCA, clustering, dimensi tinggiABSTRACT: In data mining, preprocessing is one of important factor to yield efficient and good quality information. In unsupervised learning or clustering, the process of high dimension data will need expense and computing time that are big. Clustering process also can work better with data which have a little dimension.
The technique preprocessing, which is studied in this final duty, is Principal Component Analysis ( PCA) where data set, which its dimension is big, summarized become data set with new dimension that its amount is slimmer. The new dimension is principal component (PC). PC formed by linear combination from original dimension so that data will not loss its genuiness characteristic.
Result of system examination of the colon data set tumor owning 2000 dimension can be summarized become 46 PC. PC and DLBCL data set owning 4026 dimension can be summarized become 46 PC. At data set the colon of tumor and DLBCL, data 1, 2, or 3 PC can give the performance result of K-Means Clustering which is better than the original data. For the method of Two Step Clustering of data set the colon tumor obtained by PCA performance which less be effective while the DLBCL data set obtained good performance of PCA at data 1 or 3 PC.
Keyword: data mining, preprocessing, PCA, clustering, multidimensi