ABSTRAKSI: Optical Character Recognition (OCR) adalah teknik yang digunakan untuk menerjemahkan suatu citra yang memuat karakter atau huruf menjadi dokumen teks dalam standar pengkodean seperti ASCII atau Unicode. Biasanya OCR mengambil masukan berupa citra hasil scan dari dokumen tercetak dan melakukan pengenalan pada masing-masing karakter dalam citra tersebut. Dengan demikian OCR mengubah citra masukan menjadi teks digital yang dapat diedit sebagaimana umumnya.
Dalam melakukan pengenalan karakter sistem OCR melakukan empat langkah utama yaitu pre-prosesing, segmentasi, ekstraksi fitur, dan pengenalan karakter. Preprosesing bertujaun untuk mempersiapkan citra masukan dengan cara memperbaiki kualitasnya atau mereduksi noise sehingga lebih mudah diinterpretasi pada tahap selanjutnya. Segmentasi adalah proses pemenggalan karakter-karakter dalam citra menjadi satuan-satuan lebih kecil berupa huruf. Segmen-segmen ini kemudian diekstrak cirinya melalui proses ekstraksi ciri dan dikenali sebagai karakter-karakter tertentu pada tahap pengenalan.
Diskusi-diskusi tentang OCR lebih banyak terfokus pada proses ekstraksi ciri dan pengenalan. Tugas akhir ini berusaha menerapkan proses OCR dengan menerapkan Principal Component Analysis (PCA) dan K-Nearest Neigbourhood (KNN) masingmasing sebagai metode ekstraksi ciri dan metode pengenalan. Oleh karena itulah penulis memilih judul ”Optical Character Recognition (OCR) menggunakan Principal Component Analysis (PCA) dan K-Nearest Neighbourhood (KNN)”
Kata Kunci : Kata kunci: Optical Character Recognition (OCR), Principal Component AnalysisABSTRACT: Optical Character Recognition (OCR) is a technic used to translate images that contain characters, letters or both, become text document within the standard of ASCII or Unicode. Commonly, OCR takes scanned images from printed documents as input and identifies each character in the image. In the other words, OCR converts inputted images to simple digital text than can be editedable normally.
There are four main steps on the process of recognizing characters by OCR : pre-processing, segmentation, feature-extraction, and characteridentifying. Pre-processing means to prepare inputted images by improving the quality or both reducing noises therefore simplifying next steps interpretation. Segmentaton is a process to separat each character on the images, become a single letter. The segmentations results are extracted on the feature-extraction and recognition as specific character on the character-identifying.
The main discussion of OCR is mainly focused on the process of featureextraction and character-recognition. This final project is made using Principal Component Analysis (PCA) and K-Nearest Neigbourhood (KNN) as a featureextracton method and identifying method. Therefore the writer choosing title : ”Optical Character Recognition (OCR) using Principal Component Analysis (PCA) and K-Nearest Neighbourhood (KNN)”.
Keyword: Keywords : Optical Character Recognition (OCR), Principal Component