Berkembangnya Internet semakin memudahkan pengguna dalam pencarian
informasi. Community Question Answering (CQA) adalah salah satu sarana
yang menyediakan fasilitas tanya jawab dengan mudah dan gratis. Forum
diskusi kebanyakan membebaskan pengguna dalam menulis pertanyaan ataupun
jawabannya, maka dari itu jawaban-jawaban yang ada pasti sangat bervariasi,
terdapat jawaban yang memberikan solusi dan ada juga jawaban yang tidak
menjawab pertanyaan. Pada penelitian ini, yang dilakukan berkaitan dengan
klasi?kasi jawaban terhadap pertanyaan yang ada pada forum diskusi Qatar Living.
Identi?kasi dilakukan untuk menentukan jawaban mana yang termasuk dalam
kelas good, bad, dan potential. Klasi?kasi jawaban diselesaikan dengan metode
supervised learning.
Proses klasi?kasi dilakukan pada data yang direpresentasikan oleh ?tur seperti
Similarity feature (semantic similarity dan cosine similarity), topik model, Textual
feature (author), dan Non textual feature (special word, heuristic/link, head word,
emoticon, dan question mark). Secara garis besar, terdapat tiga tahap pada
penelitian ini yaitu, preprocessing data lalu ekstraksi ?tur, dan terakhir adalah
proses klasi?kasi jawaban. Preprocessing terdiri atas tiga tahap yaitu, tokenization,
stopword removal, dan lemmatization. Perbedaan penelitian ini dengan penelitian
sebelumnya yaitu JAIST adalah dari segi pemilihan ?tur. JAIST menggunakan
Word matching feature group, Special-component feature group, Non textual feature
group, Topic model, Word vector, dan Translation based feature.
Berdasarkan hasil evaluasi dari penelitian ini, penulis mendapatkan bahwa
klasi?kasi yang dilakukan memiliki tingkat akurasi sebesar 72,36 % dan Macro
F1 sebesar 54,10%. Jika dibandingkan dengan hasil SemEval 2015, penelitian ini
berada pada urutan ke 3 dari 12 peserta dengan nilai Macro F1 sebagai baseline
score untuk pemeringkatannya.
Keyword: community question answering, supervised learning, semantic
similiarity, pemodelan topik, qatar living