The Character Area Extraction and the Character Segmentation on the Color Document

칼라 문서에서 문자 영역 추출믹 문자분리

  • Published : 1999.08.01

Abstract

This paper deals with several methods: the clustering method that uses k-means algorithm to abstract the area of characters on the image document and the distance function that suits for the HIS coordinate system to cluster the image. For the prepossessing step to recognize this, or the method of characters segmentate, the algorithm to abstract a discrete character is also proposed, using the linking picture element. This algorithm provides the feature that separates any character such as the touching or overlapped character. The methods of projecting and tracking the edge have so far been used to segment them. However, with the new method proposed here, the picture element extracts a discrete character with only one-time projection after abstracting the character string. it is possible to pull out it. dividing the area into the character and the rest (non-character). This has great significance in terms of processing color documents, not the simple binary image, and already received verification that it is more advanced than the previous document processing system.

본 논문에서는 칼라로 입력된 문서 영상에서 문자 영역추출을 위하여 k-means을 이용한 클러스트링 알고리즘을 제안하였다. 칼라 영상의 클러스트링을 위해서 HIS 좌표계에 적합한 거리함수를 제안하였다. 이를 인식하기 위한 전처리 단계인 문자분리(segmentation)방법은 연결 화소를 이용한 개별문자 추출 알고리즘을 제안하였다. 본 알고리즘 에서는 문자분리방벙에서 접촉문자 (touching character)또는 겹친 문자(overlapped character)등과 같이 분리가 곤란한 문자를 개별문자로 분리하는 방법이다. 기존의 문자 분리방법에서는 투영(projection)dop 의한 방법과 외곽선(edge)추적에 의한 방법등을 사용하여 왔으나 제안된 방법은 문자열 추출후 한번의 투영으로 연결화소를 이용하여 개별문자를 추출한다. 문자 영역과 비 문자 영역을 구분하여 개발문자 추출을 한 결과 단순한 이진 영상이 아닌 칼라 영상에서의 문서 처리가 큰 의의가 있고 기존의 문서 처리기 보다 향상된 알고리즘인 것을 확인하였다.

Keywords

References

  1. 칼라 영상에서 문자와 비문자 영역 분류에 관한 연구 이문주;진영근;이은주;김태균
  2. Proceeding 1st, International Conference on Document Analysis and Recognition Resolving Amviguity in Segmenting Touching Characters S. Tsujimoto;H. Asada
  3. Computer Vision, Graphics, and Image Processing v.47 Classfication of Newspaper Image Blocks Using Texture Analysis D. Wang;S.N. Srihara
  4. 한국정보과학회논문지 v.20 no.12 연결화소를 이용한 문서영상의 분할 및 인식 장명옥;천대녕;양현승
  5. Digital Image Processing Rafael C. Gonzalez;Richard E. Woods
  6. Digital Image Processing William K. Patt
  7. Pattern Recognition : Statistical, Structural and Neural Approaches Robert J. Schalkoff
  8. 인쇄체 문서 인식을 위한 문자 추출에 관한 연구 김의정;김태균
  9. Proceeding 1st, International Conference on Document Analysis and Recognition Resolving Ambiguity in Segmenting Touching Characters S. Tsujimoto;H. Asada
  10. Proceeding 2nd, International Conference on Document Analysis and Recognition Segmentation of Characters in Printed Document Recognition S. Liang;M. Ahmadi;M. Shridhar
  11. Proceeding 2nd, International Conference on Document Analysis and Recognition On the Segmentation of Touching Characters Y. Lu
  12. Computer Vision, Graphics, and Image Processing v.47 Classfication of Newspaper Image Blocks Using Texture Analysis D. Wang;S.N. Srihara
  13. 한국정보과학회논문지 v.18 no.2 블록영상의 추출 알고리즘 이인동;권오석;김태균
  14. 한국정보과학회논문지 v.20 no.12 연결화소를 이용한 문서영상의 분할 및 인식 장명욱;천대녕;양현승