ABSTRAKSI: Pembangunan Large Vocabulary Continuous Speech Recognition (LVCSR) membutuhkan sebuah basis data kalimat yang kaya bunyi. Dalam hal ini bunyi direpresentasikan sebagai fonem. Fonem sebagai komponen bunyi terkecil pelafalan kata akan disusun menjadi triphone, tujuannya adalah peningkatan akurasi konversi speech-to-text. Sistem dalam tugas akhir ini menangani pemilihan kalimat-kalimat yang kaya triphone.
Algoritma greedy adalah algoritma yang memilih solusi terbaik saat ini, dengan harapan akan menemukan solusi terbaik di akhir eksekusi, meskipun tidak ada jaminan algoritma ini akan selalu menemukan solusi terbaik. Algoritma Greedy ini akan digunakan untuk memilih sejumlah kalimat dari keseluruhan kalimat yang ada. Kalimat yang dipilih adalah kalimat yang kaya triphone. Proses pemilihan ini memerlukan memori yang besar, lalu bagaimana caranya supaya pemilihan tetap bisa dilakukan dengan menggunakan memori yang kecil yaitu dengan melakukan pemrosesan sebagian-sebagian, dengan kata lain keseluruhan kalimat yang ada akan dipecah dan diproses masing-masing.
Hasil yang diberikan pemrosesan sebagian-sebagian ini tidak jauh berbeda dengan pemrosesan langsung terhadap keseluruhan kalimat.Kata Kunci : basis data, fonem, triphone, konversi, speech-to-text, algoritma greedy.ABSTRACT: The development of LVCSR needs a sentence databases which is rich of voices. In this case, voices are represented as phoneme. Phoneme is the smallest voice component in spelling the word that it will be arranged to be threephones. The aim is to increase the accuracy of conversion of speech to text. The system of this research paper discusses about selecting sentences which has rich of threephones.
Greedy algorithm is an algorithm selects current best solution. It is hoped that it will gets the best solution on the last execution, although there’s no guaranty that it will always get the best solution. This algorithm will be used to select some sentences from the whole sentences set. The sentences selected is the triphone rich sentences. The selection process needs big memory allocation. So how we can do the selection with a minimal memory allocation is to do the process to the sub collection of the whole sentences set, in other words, we will break apart the whole sentence set to some sub sentence set and process it separately.Keyword: databases. Phoneme. Threephones. Conversation.