ABSTRAKSI: Plagiarism (plagiarisme) adalah menyalin sepenuhnya suatu paper milik orang lain tanpa menyertakan sumbernya (penulis aslinya) dan kemudian diakui sebagai paper miliknya. Plagiarism ini akan sangat merugikan bagi pemilik jika sampai dipublikasikan oleh orang yang tidak berhak.
Deteksi otomatis suatu plagiatisme adalah sesuatu yang sangat dibutuhkan dalam suatu lingkup akademisi. Plagiarism ini akan menjadi lebih kompleks jika dibuat dalam bentuk multilingual, yaitu teks asli ditulis ke dalam bahasa yang berbeda. Dari sebuah cross-lingual perspective, suatu fragmen teks dalam satu bahasa dianggap plagiat dari suatu teks dalam bahasa lain jika isi teks tersebut secara semantik sama.
Dalam Tugas Akhir ini, analisis cross-lingual plagiarism berdasarkan pada eksploitasi dari kamus bilingual statistical. Kamus ini dibentuk pada basis corpus paralel yang berisi original fragmen ditulis dalam satu bahasa dan versi plagiat dari fragmen tersebut ditulis dalam bahasa lain. Pembangunan kamus bilingual statistical yaitu dengan menggunakan alignment IBM Model-1 dan Algoritma Expectation Maximization. Kamus bilingual statistical merupakan inti dari penelitian ini.Kata Kunci : Plagiarism, Cross-Lingual Plagiarism, Corpus Paralel, Kamus Bilingual Statistical, Fragmen, alignment IBM Model-1, Algoritma Expectation Maximization.ABSTRACT: Plagiarism is entirely a paper copy of another person without including the source (original author) and later recognized as his own paper. Plagiarism will be very detrimental to the owner when it came to be published by people who are not eligible.
The automatic detection of plagiarism is a task that has acquired relevance in the Information Retrieval area and it becomes more complex when the plagiarism is made in a multilingual panorama, where the original and suspicious texts are written in different language. From a cross-lingual perspective, a text fragment in one language is considered a plagiarism of a text in another language if their contents are considered semantically similar no matter they are written in different languages and the corresponding citation or credit is not included.
In this project on cross-lingual plagiarism analysis are based on the exploitation of a statistical bilingual dictionary. This dictionary is created on the basis of a parallel corpus which contain original fragments written in one language and plagiarised versions of these fragment written in another language. Development of statistical bilingual dictionary by using IBM Model-1 alignment and Expectation Maximization Algorithm. Statistical bilingual dictionary is the core of this research.Keyword: Plagiarism, Cross-Lingual Plagiarism, Corpus Parallel, Statistical Bilingual Dicionary, Fragment, IBM Model-1 alignment, Expectation Maximization Algorithm