Distinction of Korean and English Characters from Multi-font Images for the Recognition of Mixed Document Composed of Korean and English

한영 혼용문서 인식을 위한 다중 폰트 이미지로부터 한글과 영어의 구별

  • 전일수 (경일대학교 공과대학 컴퓨터공학과)
  • Published : 1999.09.01

Abstract

This paper proposed and algorithm for distinguishing Korean and English characters which can be applied to multi-size and multi-font images The proposed algorithm distinguishes them as the ratio height to width of each character, the number of connected component, existing or not of stroke image on the left-upper area and detection of bars in an input image. The process of detecting bar is a sequence of left, upper, right, and lower. The proposed method was experimented and proved good performance for the Myungjo font, the Sinmyungjo font, the Gothic font, and the Kungseo font of Hanguel word processor which is widely used for the writing of documents.

본 논문에서는 한\ulcorner영 혼용문서인식을 위해 다중 크기, 다중 활자체에 적용 가능한 한글과 영어를 구별하는 알고리즘을 제안한다. 제안된 방법에서는 글자의 종횡비, 연결요소의 수, 좌상단의 획이미지 존재 여부, 그리고 바(bar)를 입력 이미지에 대해 좌상우하의 순서로 진행해 가면서 바를 검출하고, 이들을 이용하여 한글과 영어를 구별한다. 제안된 방법을 문서 작성 시 널리 사용되는 ?글의 명조체, 신명조체, 고딕체, 궁서체에 대해 실험하여 그 성능의 우수성을 입증하였다.

Keywords