Character Segmentation using Side Profile Pattern

측면윤곽 패턴을 이용한 접합 문자 분할 연구

  • Jung Minchul (Department of Computer System Engineering, Sangmyung University)
  • 정민철 (상명대학교 공과대학 컴퓨터시스템공학과)
  • Published : 2004.12.01

Abstract

In this paper, a new character segmentation algorithm of machine printed character recognition is proposed. The new approach of the proposed character segmentation algorithm overcomes the weak points of both feature-based approaches and recognition-based approaches in character segmentation. This paper defines side profiles of touching characters. The character segmentation algorithm gives a candidate single character in touching characters by side profiles, without any help of character recognizer. It segments touching characters and decides the candidate single character by side profiles. This paper also defines cutting cost, which makes the proposed character segmentation find an optimal segmenting path. The performance of the proposed character segmentation algorithm in this paper has been obtained using a real envelope reader system, which can recognize addresses in U.S. mail pieces and sort the mail pieces. 3359 mail pieces were tested. The improvement was from $68.92\%\;to\;80.08\%$ by the proposed character segmentation.

본 논문에서는 영문 인쇄체의 접합 문자를 분할하는 새로운 알고리듬을 제안한다. 본 논문에서 제안하는 문자 분할의 접근 방식은 특징을 기반으로 한 접근 방식(feature-based approaches)과 인식을 기반으로 한 접근 방식(recognition-based approaches)의 단점을 보안한 새로운 문자 분할 방법이다. 접합 문자의 측면 윤곽 특징을 정의하고, 그 측면 윤곽 특징을 이용하여 문자 인식의 도움 없이도 접합 문자 내의 문자를 일차 내정하여 분할 한 후 다시 측면 윤곽 특징을 이용하여 문자 분할을 최종 확정한다. 또한 본 논문에서는 분할 비용을 정의하는데, 분할 비용은 최적의 경로로 문자 분할을 수행하도록 한다. 제안된 문자 분할의 성능은 U.S. 메일에서 주소를 자동으로 인식하여 메일을 자동으로 도착지별로 분류하는 시스템(Envelope Reader System)을 이용해 구해졌다. 3359개의 메일이 실험되어졌는데, 제안된 문자 분할 알고리즘에 의해 분류율이 $68.92\%$에서 $80.08\%$로 성능이 향상되었다.

Keywords