Pada penelitian kali ini, topik yang diangkat adalah Traffic Light Control. Topik ini mendapatkan banyak perhatian karena sifatnya yang sangat penting disebabkan berkaitan dengan optimasi lalu lintas. Beberapa algoritma baik yang sederhana maupun lanjut sudah banyak diterapkan oleh peneliti lainnya sebelumnya. Penelitian ini menghasilkan sebuah skema untuk Traffic Light Control menggunakan metode model based Reinforcement Learning yaitu Markov Decision Process (MDP). Model MDP dibentuk melalui observasi environment atau dengan kata lain infrastruktur lalu lintas yang dibentuk melalui sebuah Traffic Light Control Simulator, yaitu Green Light District. Pada penelitian ini dihasilkan sebuah model MDP yang dapat mengoptimasi waiting time pada infrastruktur lalu lintas. Pendekatan yang digunakan dalam memodelkan MDP adalah dengan pembentukan state berdasarkan kepadatan semua jalur yang masuk pada sebuah persimpangan jalan, sedangkan action pada model MDP ini berupa nomor warna lampu yang dihijaukan pada sebuah persimpangan jalan. Berdasarkan hasil pengujian dengan beberapa skenario dan parameter tertentu, secara keseluruhan model MDP yang diimplementasi pada penelitian ini dapat mengungguli algoritma dasar Traffic Light Control dengan Average Junction Waiting Time (AJWT) sebesar 29.886 detik.