Language Identification of Character-level in Document Image

;;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2003.10b
/
Pages.613-615
/
2003
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Language Identification of Character-level in Document Image

문서영상의 낱자 단위 언어 구분

권세광 (전북대학교 컴퓨터과학과) ;
오일석 (전북대학교 컴퓨터과학과)

Published : 2003.10.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 문서 구조분석을 통해 얻어진 텍스트 영상에 대해 낱자 단위 분할 과정과 분할된 낱자에 대한 언어 구분 방법을 제안한다. 먼저 8방향 연결 요소를 이용한 레이블링을 수행하고 각 레이블의 거리관계와 한글 종모음의 특징을 이용하여 낱자 분리를 수행한다. 분리가 이루어진 낱자의 언어 구분은 각 낱자에 존재하는 concavity 특징을 이용하여 한글과 영어로 구분하게 된다. Concavity 특징을 찾기 위해 낱자를 이루는 흑화소 중 수직런을 이루는 흑화소 중 일부와 세리프 성분을 제거하며 그 방법을 기술한다. concavity 특징은 분리기를 통해 한글과 영어 두 가지로 분리되며, 분류기는 신경망을 이용한다. 제안된 방법은 20개의 텍스트 영상에 총 7923개의 낱자를 대상으로 실험하였으며, 낱자 분리는 97.20%의 정확도를 보였으며 분리된 낱자에 대한 언어 구분은 92.70%의 정확도를 얻을 수 있었다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Language Identification of Character-level in Document Image

문서영상의 낱자 단위 언어 구분

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)