Anime sedang mengalami masa kejayaannya, dengan lebih dari 6000 anime rilis dan menguasai 60% pasar industri penyiaran kartun. Namun, konten visual anime kerap mengandung simbol atau bentuk grafis yang mengarah ke unsur vulgar hingga pornografi, menampilkan pakaian minim serta menonjolkan bagian tubuh tertentu dengan daya tarik seksual yang dapat menyebabkan dampak negatif seperti kecanduan hingga eksplorasi mendalam. Konten vulgar tidak terbatas pada genre seksualitas, genre umum seperti action, adventure, supernatural juga mengandung konten visual vulgar. Penelitian berfokus pada pengembangan model sebagai langkah dini pencegahan konten vulgar dalam anime dengan pendekatan utama menggunakan Detection Transformer (DETR) yang mengadaptasi mekanisme attention dari transformer. Eksperimen dilakukan dengan dua varian backbone yaitu ResNet-50 dan ResNet-101 serta penambahan dilated convolution untuk memperluas receptive field. Fokus selanjutnya adalah komparasi antara model DETR dengan model You Only Look Once (YOLO), pendekatan deteksi objek lainnya. Hasil eksperimen pada DETR memberikan dua dampak: peningkatan nilai
menunjukkan kemampuan model dalam mendeteksi objek kecil, dan penurunan nilai
,
akibat dari hilangnya informasi lokal dan kepadatan spasial karena dilatasi pada stage awal. DETR dengan backbone ResNet-50 dilated convolution stage 4 unggul dibandingkan percobaan lain dengan nilai
0.491,
0.875,
0.485,
0.2999,
0.491,
0.518. Hasil evaluasi metrik menunjukkan YOLOv9t unggul dalam semua metrik evaluasi untuk setiap percobaan. Namun hal ini berbanding terbalik ketika kedua model dilakukan inference terhadap video yang menunjukkan DETR unggul dalam mendeteksi objek vulgar pada bagian dada dan bawah pinggul, objek kecil, serta minim gagal mendeteksi objek vulgar dibandingkan dengan model YOLO.