The Extraction of Table Lines and Data in Document Image

문서영상에서 표 구성 직선과 데이터 추출

  • 장대근 (특허청 전지전자심사본부) ;
  • 김의정 (공주대학교 컴퓨터교육과)
  • Published : 2006.03.01

Abstract

We should extract lines and data which consist of the table in order to classify the table region and analyze its structure in document image. But it is difficult to extract lines and data exactly because the lines are cut and their lengths are changed, or characters or noises are merged to the table lines. These problems result from the error of image input device or image reduction. In this paper, we propose the better method of extracting lines and data for table region classification and structure analysis than the previous ones including commercial softwares. The prposed method extracts horizontal and vertical lines which consist of the table by the use of one dimensional median filter. This filter not only eliminates the noises which attach to the line and the lines which are orthogonal to the filtering direction, but also connects the cut line of which the gap is shorter than the length of the filter tap in the process of extracting lines to the filtering direction. Furthermore, texts attached to the line are separated in the process of extracting vertical lines. This is an example of ABSTRACT format.

문서 영상에서 표 영역을 분류하고 구조를 파악하려면 표를 구성하는 직선과 데이터를 추출할 수 있어야 한다. 그러나 영상 입력 장치의 오차나 영상축소로 인해 표를 구성하는 직선이 끊어지거나 길이가 변하며 직선에 노이즈나 문자가 붙어 표로부터 직선과 데이터의 정확한 추출이 어렵다. 본 논문에서 는 1차원 메디안 필터를 이용하여 표를 구성하는 수평선과 수직선을 추출한다. 1차원 메디안 필터는 필터링 방향의 직선을 추출하는 과정에서 노이즈와 필터링 방향에 수직한 직선을 제거할 뿐 아니라 직선의 끊어진 부분이 필터 탭 길이보다 짧은 경우 끊어진 부분을 연결한다. 또한 수직선을 추출하는 과정에서 직선에 붙어 있던 문자들을 분리함으로써 상용제품을 포함한 기존의 방법에 비해 표 영역 분류 및 구조 분석을 위한 직선과 데이터 추출이 우수한 방법을 제안한다.

Keywords

References

  1. X. Li, J. Hong, Z. Zhang and B. Chen, 'A Statistical Form Reading System,' Proc. IEEE Region 10 Conf. Computer, Communication, Control and Power Engineering, vol.2 pp.1062-1065, 1993
  2. L. A. Pereira and J. Facon, 'Methodology of Automatic Extraction of Table-form Cells,' Proc. 8th Brazilian Symp. Computer Graphics and Image Processing, pp.15-21, 2000
  3. X. Li, W. Gao, S. Y. Chi, K. A. Moon and H. J. Kim, 'An Efficient Method for Page Segmentation,' Proc. ICICS, vol.2, pp.957-961, 1997
  4. L. huizhu, G. Agam and I. Dinstein, 'Directional Mathematical Mophology Approach for Line Thinning and Extraction of Character Strings from Maps and Line Drawings,' Proc. 3th Int. Con! Document Analysis and Recognition, vol.1 pp.257-260, 1995
  5. Jain-Shiue Chen and Din-Chang Tseng, 'Overlapped Charter Separation and Reconstruction for Table-form Documents,' Proc. Int. Conf. Image Processing, vol.1 pp.233-236, 1996
  6. Ren Jean Liou and Mu-Song Chen, 'Recognition of Table-form Documents Using High Order Correlation Method,' Proc. Int. Joint Con! Neural Networks, vol.3, pp.1851-1856, 1998
  7. T. Watanabe, Q. Luo and N. Sugie, 'Layout Recognition of Multi-Kinds of Table Form Documents,' IEEE Trans. Pattern Analysis and Machine Intelligence, vol.17, no.4, pp.432-445, 1995 https://doi.org/10.1109/34.385976
  8. D. Drivas and A. Amin, 'Page Segmentation and Classification Utilizing Bottom-up Approach,' Proc. ICDAR, pp.610-614, 1995