A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja

인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구

  • Published : 1991.03.01

Abstract

This paper proposes a new classification algorithm using characteristic and structural information of printed Hanja as preliminary stages of Hanja-character recognition. Hanja is difficult for not only recognition but classification as many character and complicated structure. In this paper, to solve thie problem, extracted common subpattern in classified pattern after processing type classification fot Hanja pattern. First, we extracted subpattern, after we process preprecessing about input of character pattern, extracting directional segment, labeling on 4-directional pattern and 12 type classified using structural information based on the subpattern existing region of character pattern. Though the experiment, this study obtained that classified rate of Hanja is 93.07% on 1800 character of educational Hanja and 90.12% on 4888 character of KS C5601 standard TRIGEM LBP Hanja font and saw that as extracting subpattern at classified data was this paper possibly applied to the recognition.

본 논문에서는 한자인식을 위한 전단계로서 인쇄체 한자를 대상으로 한자의 특성과 구조적 정보를 이용한 새로운 분류 알고리즘을 제안하였다. 한자는 자종이 많고 구조가 복잡하여 인식은 물론이고 분류하는 데에도 많은 어려움이 따른다. 이러한 문제점을 해결하기 위해, 본 연구에서는 한자패턴을 형식분류한 후 분류된 패턴에서 공통으로 존재하는 부분패턴을 추출하는 실험을 행하였다. 먼저 입력한 문자 패턴에 대해 전처리를 행한 후, 방향 세그먼트를 추출하여 4방향화면상에서 레이블링을 하고, 문자패턴의 부분패턴 존재 영역에 기초한 구조적 정보를 이용하여 12가지 형식으로 분류한 다음 그 부분패턴을 추출하였다. 중, 고교 교육용한자 1800자에 대해서 실험을 행한 결과 93.07%의 형식분류율을 얻었고, KS C5601표준 삼보 LBP 한자 폰트 4,888자에 대해서는 90.12%의 형식분류율을 얻었으며, 분류된 데이타로 부터 부분패턴을 추출하여 인식에의 적용가능성을 보였다.

Keywords