ABSTRAKSI: Decision Tree yang merupakan salah satu cara dalam klasifikasi ini berguna untuk mendapatkan seperangkat rule yang tepat dari jumlah instance yang besar. Namun, ia memiliki kesulitan dalam memperoleh hubungan antara poin data yang memiliki nilai kontinu. Banyak dari algoritma Decision Tree dikembangkan untuk dapat menangani atribut kontinu dengan cara menerapkan konsep pre-discretization. Atribut discretization menjadi salah satu komponen penting dari tahap persiapan data untuk induksi Decision Tree. Atribut discretization, membuat partisi domain atribut menjadi set interval, melibatkan dua langkah utama: (1) penentuan jumlah interval terhadap atribut yang harus didiskretisasi; dan (2) penentuan batas setiap interval
Beberapa algoritma Decision Tree yang menerapkan konsep prediscretization ini adalah C4.5 dan NBTree yang merupakan algoritma state-of-art karena hasil akurasi klasifikasinya sudah sangat baik bahkan dalam ukuran data yang besar. Namun jika ditelusuri lebih lanjut dari sudut pandang teori informasi, hilangnya informasi akibat penerapan pre-discretization dapat menurunkan akurasi klasifikasi.
Dalam tugas akhir ini dibuat suatu perangkat lunak yang mengimplementasikan metode klasifikasi yaitu Self-adaptif NBTree, yang menginduksi secara hybrid Decision Tree dan Naive Bayes. Bayes measure, yang digunakan untuk membangun Decision Tree secara post-discretization, dapat langsung menangani atribut kontinu dan secara otomatis menemukan jumlah interval setabatas-batas yang paling tepat untuk diskretisasi. Simpul Naive Bayes yang berada pada leaf membantu untuk memecahkan masalah overgeneralization dan overspecialization yang sering terlihat pada Decision Tree.
Performansi algoritma Self-adaptive NBTree akan dibandingkan dengan NBTree, dan dua algoritma pendirinya yaitu C4.5(Decision Tree) serta Naive Bayes. Hasil pengujian menunjukan Self-adaptive NBTree memiliki performansi akurasi yang lebih baik dan ukuran pohon lebih kecil dari NBTree, C4.5, dan Naive Bayes ketika menangani banyak nilai kontinu. Sedangkan NBTree dan C4.5 bekerja baik pada dataset dengan karakteristik tertentu. Naive Bayes memiliki waktu pembangunan model dan klasifikasi tercepat, namun akurasinya kurang baik pada dataset ukuran besar.Kata Kunci : Decision tree, aive Bayes,Discretization, btree, Self-adaptiveABSTRACT: Decision Tree which is one way in this classification is useful to obtain an appropriate rule set from a large number of instances. However, he had difficulty in obtaining relationship between the data points that have continuous values. Many of the Decision Tree algorithm can be developed to handle continuous attributes by applying the concept of pre-discretization. Attribute discretization become one important component of the data preparation stage for the induction of Decision Tree. Attribute discretization, a domain partition attribute to set the interval, involves two main steps: (1) determining the number of intervals of the attributes that should be didiskretisasi; and (2) determining the limits of each interval.
Some Decision Tree algorithm that applies the concept of prediscretization is the C4.5 and the “state-of-art” algorithm NBTree because of its classification accuracy was very good even in a large data size. However, if further explored from the viewpoint of information theory, the loss of information due to the application of pre-discretization can reduce the classification accuracy.
In this final task,was made a software that implements the classification method of Self-adaptive NBTree, which induces a hybrid Decision Tree and Naive Bayes. Bayes measure, which is used to build a Decision Tree in a postdiscretization, can directly handle continuous attributes and automatically find the number of interval-setabatas the most appropriate limits for diskretisasi. Naive Bayes node on the leaf which is helping to solve the problem of overgeneralization and overspecialization often seen in the Decision Tree.
Performance of Self-adaptive NBTree will compare to NBTree, and the two frames of it, the C4.5 (Decision Tree) and Naive Bayes. Test results showed self-adaptive NBTree performance have a better accuracy and smaller tree sizes than NBTree, C4.5, and Naive Bayes when dealing with a lot of continuous values. While NBTree and C4.5 works well on datasets with certain characteristics. Naive Bayes has the fastest model development and the classification time, but its accuracy is less kind to large size datasets.Keyword: Decision tree, Naive Bayes,Discretization, Nbtree, Self-adaptive