DOI QR코드

DOI QR Code

Line Edge-Based Type-Specific Corner Points Extraction for the Analysis of Table Form Document Structure

표 서식 문서의 구조 분석을 위한 선분 에지 기반의 유형별 꼭짓점 검출

  • 정재영 (동양대학교 컴퓨터정보전학과)
  • Received : 2014.01.15
  • Accepted : 2014.04.07
  • Published : 2014.04.30

Abstract

It is very important to classify a lot of table-form documents into the same type of classes or to extract information filled in the template automatically. For these, it is necessary to accurately analyze table-form structure. This paper proposes an algorithm to extract corner points based on line edge segments and to classify the type of junction from table-form images. The algorithm preprocesses image through binarization, skew correction, deletion of isolated small area of black color because that they are probably generated by noises.. And then, it processes detections of edge block, line edges from a edge block, corner points. The extracted corner points are classified as 9 types of junction based on the combination of horizontal/vertical line edge segments in a block. The proposed method is applied to the several unconstraint document images such as tax form, transaction receipt, ordinary document containing tables, etc. The experimental results show that the performance of point detection is over 99%. Considering that almost corner points make a correspondence pair in the table, the information of type of corner and width of line may be useful to analyse the structure of table-form document.

표 서식을 활용하고 있는 수많은 문서들을 종류에 따라 자동으로 분류하거나, 서식에 기입된 정보를 서식과 분리하여 추출하는 기술은 매우 중요하게 활용된다. 이를 위해서는 표 서식 구조를 정확하게 파악하는 과정은 필수적이다. 본 논문에서는 표 서식 문서 영상에 대한 유형별 꼭짓점 검출 방법을 제안한다. 주요 처리 과정은 전처리, 에지 블록 검출, 선분 에지 블록 검출, 꼭짓점 검출 단계를 거친다. 추출된 꼭짓점들은 선분 에지들이 다양한 형태로 직교하는 교차점들로 9가지 유형으로 분류된다. 실험에서는 제안한 방법을 세금계산서, 거래명세표, 표를 포함하고 있는 일반 문서 등과 같은 몇 가지 형태의 영상에 적용하여 99% 이상의 유형별 꼭짓점 추출 성능 결과를 보인다. 서식 문서 내에서의 대부분의 꼭짓점들은 대칭 형태로 존재한다는 사실을 고려할 때, 꼭짓점의 유형, 선분 에지의 폭 및 그들의 위치 관계를 활용하여 서식의 구조 분석에 활용 가능하다.

Keywords

References

  1. S. R. Hong, "The contrast between traditional printed text and hypertext reading comprehension", Journal of Digital Contents Society, vol. 10, no. 4, pp. 537-542, 2009.
  2. R. Jayadevan, S. R. Kolhe, P. M. Patil, and U. Pal, "Automatic processing of handwritten bank cheque images: a survey," Int. Journal on Document Analys is and Recognition, vol. 15, pp. 250-292, Jul., 2011.
  3. J. Chen and D. Lopresti, "Model-based ruling line detection in noisy handwritten documents", Pattern Recognition Letters, vol. 35 pp. 34-45, 2014. https://doi.org/10.1016/j.patrec.2012.08.008
  4. S. Mandal, S. P. Chowdhury, and A. K. Das, "Fully automated identification and segmentation of form document," Computer Vision and Graphics, vol. 12, pp. 953-961, 2006.
  5. R. Palacios and A. Gupta, "A system for processing handwritten bank checks automatically", Image and Vision Computing, vol. 26, no. 10, pp. 1297-1313, 2008. https://doi.org/10.1016/j.imavis.2006.04.012
  6. H. Nielson . W. Barrett, "Consensus-based table form recognition of low-quality historical documents", International Journal of Document Analysis, vol. 8, no. 2, pp. 183-200, 2006. https://doi.org/10.1007/s10032-005-0002-9
  7. A. Amano, N. Asada, M. Mukunoki and M. Aoyama, "Table form document analysis based on the document structure grammar", International Journal of Do cument Analysis, vol. 8, no. 2, pp. 201-213, 2006.
  8. T.Watanabe, Q. Luo, and N. Sugie, "Layout recogniti on of multi-kinds of table form documents," IEEE Transactions on Pattern Analysis and Machine Intel ligence, vol. 27, pp.432-445, 2005.
  9. S. Taylor, R. Fritzson, and J. Pastor, "Extraction of data from preprinted forms," Machine Vision and Applications, vol. 5, no. 3, pp.211-222, 1992. https://doi.org/10.1007/BF02626999
  10. L. A. P.Neves and J. Facon, "Methodology of automatic extraction of table-form cells," Brazilian Symposium on Computer Graphics and Image Processing (SIGGAPHI2000), pp.15-21, 2000.
  11. J. H. Ahn, "A simulation study on the fast gradientbased peak searching method", Journal of Digital Contents Society vol. 11, no. 1, pp. 39-45, Mar. 2010.
  12. J. Y. Jung, and M. Km, "Fast skew detection of document images by extraction of center points bet ween blank lines", Journal of KISS(B), vol.26, no.11, pp.1342-1349, Nov. 1999.

Cited by

  1. 시각 장애인용 신문 구독 프로그램을 위한 이미지에서 표 구조 인식 vol.19, pp.11, 2014, https://doi.org/10.9717/kmms.2016.19.11.1837