ABSTRAKSI: Churn Prediction merupakan salah satu aplikasi data mining yang bertujuan untuk memprediksi para pelanggan yang berpotensial untuk churn. Churn Prediction merupakan salah satu kasus kelas imbalance dan churn merupakan kelas minor . Terdapat beberapa cara untuk mengatasi permasalahan imbalance class yang melekat pada kasus churn ini. Salah satu contohnya dengan cara melakukan balancing terhadap data training atau dengan cara menggunakan metode yang khusus dapat menyelesaikan permasalahan imbalance class ini.
Analisis yang dilakukan pada tugas akhir ini adalah mengetahui apakah metode Bagging dan Boosting dapat dijadikan solusi dalam mengklasifikasikan data churn. Dalam mendukung tugas akhir ini, dibuat perangkat lunak yang mengimplementasikan metode Bagging, SMOTEBoost, dan Lazy Bagging. Pengujian dilakukan dengan menggunakan dua dataset. Dataset tersebut yaitu data perusahaan telekomunikasi dan data turnamen. Metode yang digunakan untuk pengujian dalam tugas akhir ini antara lain: Bagging, SMOTEBoost, Lazy Bagging, Boosting Clementine 10.1 dan C5.0 Clementine 10.1 dan melakukan penghitungan akurasi model churn prediction yang dinyatakan dalam bentuk lift curve, top decile dan gini coefficient serta f-measure untuk penghitungan akurasi data yang imbalance.
Metode Bagging dan Boosting Clementine dapat memprediksikan data churn jika dilakukan balancing terlebih dahulu terhadap data training yang digunakan. Metode SMOTEBoost dapat digunakan untuk memprediksi data yang imbalance yaitu untuk data perusahaan telekomunikasi dan data turnamen.Kata Kunci : bagging, boosting , data imbalance, churn prediction, akurasiABSTRACT: Churn prediction is one of the application in data mining which has purpose to predict potential customer to churn. Churn prediction is imbalance class problem with churn as minor class. There are several ways to solve any imbalance class problem especially churn case. For example is balancing data training or using special method to solve that.
Analysis in this final assignment is understanding whether Bagging and Boosting methods can solve to classify data churn. To support that, software implementing Bagging, SMOTEBoost, and Lazy Bagging methods is made. Evaluation uses two datasets. There are data telecommunication company and data tournament. The methods for that evaluation are Bagging, SMOTEBoost, Lazy Bagging, Boosting Clementine 10.1 and C 5.0 clementine 10.1. After that, calculate the accurateness of imbalance data in churn prediction model which is implemented as lift curve, top decile, gini coefficient and f measure.
Bagging and Boosting Clementine methods can predict data churn after balancing data training. SMOTEBoost method is used to predict imbalance data for data telecommunication company and data tournament.Keyword: bagging, boosting, imbalance data, churn prediction, accurateness