Dalam hal kesehatan masyarakat global, kesehatan mental menjadi perhatian penting. Salah satu situs media sosial yang paling populer, X telah berkembang menjadi forum bagi orang-orang untuk mendiskusikan masalah kesehatan mental dan berbagi cerita pribadi. Menganalisis sentimen dalam percakapan online ini penting untuk memahami persepsi publik dan memandu intervensi kesehatan mental. Penelitian ini mengusulkan model analisis sentimen menggunakan multimodal yang memanfaatkan data tekstual dan visual, dengan fitur teks yang diekstraksi melalui CNN-BiLSTM, TF IDF, dan FastText, dan fitur gambar menggunakan VGG-16. Klasifikasi sentimen dilakukan dengan menggunakan model Hybrid CNN-BiLSTM dengan mekanisme perhatian. Model ini menggunakan fusi tingkat menengah untuk mengintegrasikan fitur teks dan gambar, diikuti dengan tingkat keputusan untuk menggabungkan output dari model teks saja, gambar saja, dan multimodal. 24.742 pasangan tweetgambar dikumpulkan dari platform X dan dianotasi melalui sistem pemungutan suara mayoritas. Untuk membangun korpus kemiripan FastText, 63.512 data dari portal berita digital CNN (Cable News Network) dan X digabungkan. Dengan akurasi 87,92%, model multimodal mengungguli model teks saja sebesar 0,09% dan model gambar saja sebesar 25,10%. Hasil ini menunjukkan keefektifan data modalitas, ekstraksi fitur yang komprehensif, dan multimodal.