Pada 2023, kecelakaan lalu lintas mencapai rekor tertinggi dalam lima tahun terakhir dengan 148.575 kasus, di mana kantuk menyumbang 20% dan meningkatkan risiko kecelakaan hingga tiga kali lipat akibat penurunan kewaspadaan dan respons pengemudi. Penelitian ini mengembangkan metode ekstraksi fitur geometris Eye Aspect Ratio (EAR) dan Mouth Aspect Ratio (MAR) dari citra wajah sekuensial secara real-time menggunakan MediaPipe. Nilai EAR dan MAR dihitung dari koordinat landmark mata dan mulut, lalu disusun secara sekuensial untuk merepresentasikan perubahan kondisi subjek secara temporal. Representasi ini efektif menggambarkan transisi kantuk dan dapat digunakan sebagai input untuk model deteksi berbasis deep learning. Penelitian ini mencakup lima komponen utama, yaitu pengujian metode klasifikasi, input data, perbaikan citra, augmentasi, dan ramgkaian proses sistem. Data dari National Tsing Hua University Drowsiness Dataset (NTHU-DDD) dikelompokkan dalam window 60 frame, dengan fitur EAR dan MAR diekstraksi menggunakan MediaPipe. Hasil penelitian menunjukkan bahwa model CNN-LSTM memiliki kemampuan yang baik dalam memproses fitur EAR dan MAR secara sekuensial untuk mendeteksi kantuk. Representasi penuh dengan input implisit berukuran (120, 1) memberikan performa deteksi terbaik dibandingkan dengan representasi terbatas atau pemrosesan fitur secara terpisah. Teknik augmentasi Synthetic Minority Oversampling Technique (SMOTE) turut meningkatkan performa dengan menyeimbangkan distribusi kelas. Namun, performa dari beberapa metode augmentasi yang tinggi pada validasi hold-out tidak selalu konsisten saat diuji menggunakan cross-validation. Secara keseluruhan, model CNN-LSTM-120FT tanpa penerapan teknik perbaikan citra maupun augmentasi terbukti paling stabil dan andal di berbagai skenario pengujian, dengan accuracy mencapai 85,59% dan precision tertinggi sebesar 92,31%.
Kata Kunci: Kecelakaan Lalu Lintas, Kantuk, Eye Aspect Ratio (EAR), Mouth Aspect Ratio (MAR), Deep Learning, Citra Sekuensial