Penelitian ini bertujuan meningkatkan ketepatan pelafalan kata homograf dalam sistem Text-to-Speech (TTS) berbahasa Indonesia dengan mengandalkan model IndoBERT. Homograf adalah kata yang secara penulisan identik namun memiliki makna dan cara pengucapan yang berbeda, bergantung pada konteks penggunaannya. Tantangan ini menjadi signifikan dalam pengembangan chatbot edukatif berbasis suara, terutama yang menyentuh isu sensitif seperti pernikahan dini. Penelitian ini dijalankan melalui dua tahap pelatihan. Di tahap pertama, IndoBERT dilatih menggunakan 500 data yang dilabeli konteks secara manual. Hasilnya, model mencapai akurasi 98% dengan F1-score yang nyaris sempurna di semua kelas. Selanjutnya, tahap kedua dilakukan dengan melatih ulang model menggunakan tambahan 2.000 data hasil pelabelan otomatis, yang kemudian dievaluasi dengan 200 data uji. Akurasi pada tahap ini mencapai 97%, menunjukkan bahwa model tetap mampu mengenali konteks homograf dengan baik meskipun menghadapi data yang lebih kompleks. Kinerja model diperkuat oleh hasil confusion matrix dan grafik pelatihan yang menunjukkan peningkatan akurasi dan penurunan loss secara konsisten sepanjang pelatihan. Penelitian ini memberikan kontribusi melalui pengembangan kerangka klasifikasi homograf multikelas yang mendukung sistem TTS berbasis konteks. Dengan begitu, sistem pelafalan suara dalam chatbot edukatif dapat menjadi lebih tepat dan relevan secara makna. Namun, hasil analisis juga menunjukkan bahwa penggunaan model Indobert yang disimpan dari hasil fine tuning dataset berlabel otomatis masih memiliki keterbatasan, karena ketidak akuratan label pada sebagian data dapat memengaruhi performa akhir model serta mempengaruhi hasil akhir dari suara yang dihasilkan dari sistem text-to-speech. Pendekatan ini membuka peluang besar untuk pengembangan layanan suara di daerah yang memiliki keterbatasan dalam akses informasi.
Kata kunci: homograf, pernikahan dini, indoBERT, text-to-speech, chatbot.