Saat ini, teknologi Text-To-Speech (TTS) sudah mulai marak digunakan, salah satunya adalah di bidang navigasi dimana mesin akan mengucapkan kalimat penunjuk arah sehingga pengguna tidak perlu lagi membaca untuk memperoleh informasi. Dalam TTS, dikenal istilah prosodi yaitu aspek pengucapan berupa jeda frasa, durasi, nada atau intonasi, penekanan kata [10]. Salah satu aspek prosodi yang memegang peranan penting adalah jeda frasa dalam kalimat. Penentuan jeda frasa ini sangat mempengaruhi intonasi pengucapan sebuah kalimat yang tentunya akan mempengaruhi kualitas pengucapan kalimat.
Penelitian ini menggunakan metode Hidden Markov Model (HMM) untuk menentukan jeda frasa pada kalimat sebagai faktor penting dalam pembangkitan prosodi. Sistem ini menggunakan bigram HMM dengan simbol observasi berupa part-of-speech (POS) dua kata berurutan dalam sebuah kalimat. Hasil urutan state merepresentasikan jeda frasa dalam kalimat. Hasil jeda frasa akan menjadi acuan untuk memberikan durasi dan nada untuk menghasilkan prosodi. Kualitas ucapan akan diukur menggunakan metode Mean Opinion Score (MOS).
Hasil penelitian menunjukkan bahwa nilai rata-rata MOS (skala 1 sampai 5) untuk kalimat berita adalah 3.55 dan yang terbaik adalah 3.84. Nilai rata-rata MOS kalimat tanya adalah 3.73 dan yang terbaik adalah 3.87. Nilai rata-rata MOS kalimat perintah adalah 3.76 dan yang terbaik adalah 3.82. Akurasi rata-rata penentuan jeda frasa adalah 79,23%.
HMM, TTS, prosodi.