본 논문은 구조 분석적 방법과 인공신경망 방법을 결합한 새로운 방식의 한글OCR 모델을 제안한다. 한글의 언어적 특성을 이용하여 자음과 모음을 분리하고 이를 기반으로 초성, 중성, 종성인 분할된 낱자의 인식을 진행한다. 이연구를 통해서 기존 영문 데이터셋 및 구조 기반 OCR 모델의 연구에 단순히한글 데이터셋을 적용시키는 방식에서 벗어나 한글 데이터셋과 언어적 특성에적합한 OCR 모델의 개발에 새로운 방향성을 제안한다. 기존의 한글 OCR 모델은 음절 별 분류를 통한 인식을 진행했는데 초성 19개, 중성 21개, 종성 27개로 총 11,172개의 문자에 대한 분류가 필요했으나, 제안된 모델은 낱자 별분류를 통해 총 67개의 문자에 대한 분류만이 필요해 기존의 분류기 기반 OCR모델의 문제점을 해결하였다. 위 방식으로 학습시킨 OCR 모델은 현재 많이사용되는 타 OCR 모델보다 높은 인식률을 보이며, 본 연구를 적용한 한글 뿐아니라 다른 언어에서도 정해진 구조적 규칙을 기반으로 제안된 방법론을 적용하여 향상된 OCR 모델과 결과를 얻을 수 있다.
In this paper, we propose a new Korean OCR model that combines the structural analysis method and the artificial neural network method. Us-ing the linguistic characteristics of Korean, consonants and vowels are sep-arated, and based on this, the recognition of divided letters, which are the beginning, middle, and final consonants, proceeds. Through this study, we propose a new direction for the development of an OCR model suitable for the Korean dataset and linguistic characteristics, away from the method of simply applying the Korean dataset to the study of the existing English dataset and structure-based OCR model. The existing Korean OCR model recognized through classification by syllable, and it was necessary to classify a total of 11,172 characters with 19 initials, 21 middles, and 27 finals. The problem of the existing classifier-based OCR model was solved because only classification was required. The OCR model trained in the above method shows a higher accuracy than other OCR models that are currently widely used.