A Multimodal Deep Learning System for Enhanced Emotion Detection - Dalam bentuk buku karya ilmiah

ARLIYANNA NILLA

Informasi Umum

Kode

25.05.945

Klasifikasi

006.31 - Machine Learning

Jenis

Karya Ilmiah - Thesis (S2) - Reference

Subjek

Deep Learning

Dilihat

53 kali

Informasi Lainnya

Abstraksi

Deteksi emosi otomatis merupakan elemen krusial dalam pengembangan sistem Inter aksi Manusia dan Komputer (IMK) yang adaptif serta mampu merespons kondisi emosional pengguna secara dinamis. Dalam penelitian ini, dataset IEMOCAP dimanfaatkan seba gai landasan untuk merancang, mengimplementasikan, dan mengevaluasi arsitektur deep learning multimodal. Tujuan utama dari arsitektur yang dikembangkan adalah mengk lasifikasikan lima kategori emosi, yaitu marah (angry), gembira (happy/excited), frustrasi (frustrated), netral (neutral), dan sedih (sad). Evaluasi sistem dilakukan secara kuanti tatif, disertai dengan perbandingan terhadap sejumlah model unimodal sebagai pemband ing (baseline). Penelitian ini menggabungkan modalitas utama: visual dan linguistik. Modalitas vi sual diperoleh dari citra wajah pengguna, sementara modalitas linguistik berasal dari tran skripsi ujaran melalui konversi bicara ke teks. Untuk pemrosesan visual, fitur diekstraksi menggunakan arsitektur ResNet-18 yang telah dilatih sebelumnya. Representasi linguistik dibentuk melalui kombinasi tiga pendekatan: RoBERTa untuk menangkap representasi kontekstual, FastText untuk representasi semantik berbasis sub-kata, serta NRC Emotion Lexicon sebagai sumber pengetahuan afektif berbasis leksikal. Fitur dari kedua modali tas digabungkan pada level fitur dan diklasifikasikan menggunakan arsitektur Multi-Layer Perceptron (MLP). Hasil eksperimen menunjukkan bahwa arsitektur multimodal yang diusulkan menca pai akurasi tertinggi sebesar 86,48%, secara signifikan melampaui performa seluruh model unimodal, termasuk model visual dengan akurasi tertinggi sebesar 79%. Proses optimisasi yang dilakukan secara sistematis berhasil mengidentifikasi konfigurasi terbaik, yang terdiri dari penggunaan optimizer AdamW, arsitektur MLP dengan tiga lapisan tersembunyi, serta skema data split yang sesuai. Temuan ini mengindikasikan bahwa integrasi sinergis antara modalitas visual dan linguistik mampu menghasilkan sistem deteksi emosi yang lebih kontekstual, akurat, dan andal.