Large Language Model (LLM) mampu menghasilkan teks alami, tetapi pengetahuan-
nya tersimpan implisit dan tidak melakukan retrieval ke sumber eksternal yang terus
diperbarui. Kondisi ini berisiko memunculkan jawaban tidak berbasis fakta atau
kehilangan konteks pada pertanyaan medis spesifik. Penelitian ini membangun dan
membandingkan dua pipeline: Ontology-Grounded Retrieval-Augmented Generation
(OG-RAG) berbasis ontologi medis (RDF/OWL) dan RAG berbasis data terstruktur
CSV. Evaluasi pada 20 pertanyaan medis menggunakan metrik RAGAS menunjukkan
OG-RAG (GPT-4o mini) unggul pada context precision 94% dan context entity recall
77%, menandakan relevansi dan kelengkapan konteks yang lebih baik. Sebaliknya,
RAG (GPT-4o) unggul pada answer relevancy 89%, answer similarity 97%, dan
answer correctness 83%, yang mencerminkan kedekatan tekstual jawaban dengan
referensi. Analisis manual menguatkan temuan ini: OG-RAG menjawab benar 75%
pertanyaan, sedangkan RAG mencapai 100%. Hasil tersebut menunjukkan OG-RAG
lebih kuat untuk transparansi dan keterlacakan berbasis pengetahuan terstruktur,
sementara RAG lebih konsisten dalam kecocokan jawaban terhadap ground truth.