Language Identification of Character-level in Document Image

문서영상의 낱자 단위 언어 구분

  • 권세광 (전북대학교 컴퓨터과학과) ;
  • 오일석 (전북대학교 컴퓨터과학과)
  • Published : 2003.10.01

Abstract

본 논문은 문서 구조분석을 통해 얻어진 텍스트 영상에 대해 낱자 단위 분할 과정과 분할된 낱자에 대한 언어 구분 방법을 제안한다. 먼저 8방향 연결 요소를 이용한 레이블링을 수행하고 각 레이블의 거리관계와 한글 종모음의 특징을 이용하여 낱자 분리를 수행한다. 분리가 이루어진 낱자의 언어 구분은 각 낱자에 존재하는 concavity 특징을 이용하여 한글과 영어로 구분하게 된다. Concavity 특징을 찾기 위해 낱자를 이루는 흑화소 중 수직런을 이루는 흑화소 중 일부와 세리프 성분을 제거하며 그 방법을 기술한다. concavity 특징은 분리기를 통해 한글과 영어 두 가지로 분리되며, 분류기는 신경망을 이용한다. 제안된 방법은 20개의 텍스트 영상에 총 7923개의 낱자를 대상으로 실험하였으며, 낱자 분리는 97.20%의 정확도를 보였으며 분리된 낱자에 대한 언어 구분은 92.70%의 정확도를 얻을 수 있었다.

Keywords