Efficient From Document Classification Large using Partial Matching Method

부분 매칭 방법을 이용한 효율적인 서식 문서 분류

  • 변영철 (연세대학교 컴퓨터과학과) ;
  • 최영우 (숙명여자대학교 정보과학부) ;
  • 김경환 (서강대학교 전자공학과) ;
  • 이일병 (연세대학교 컴퓨터과학과)
  • Published : 2001.02.01

Abstract

본 논문에서는 서식 문서를 짧은 처리 시간에 정확히 분류함으로써 실제 환경에서 응용할 수 있는 서식 분류 방법을 제안한다. 제안하는 방법은 서식 문서 이미지 전체를 다루기보다는 처리하고자 하는 서식 문서에서 서식 구조가 많이 다른 곳을 찾아서 매칭 영역으로 결정하고, 그 영역들에 대해서만 비교를 수행함으로써 계산 시간을 줄이고 인식률을 높인다. 선분 추출 시 오류를 고려하기 위하여 기존 인쇄 문자와 채워진 데이터, 그리고 매칭 영역의 크기 정보를 페널티 함수로 반영하여 매칭 영역 선택 시 고려한다. 본 방법은 구조적으로 많이 다르고, 양질의 특징을 포함하는 적은 수의 매칭 영역을 선택함으로써 처리 시간을 줄일 수 있음은 물론 높은 서식 분류율을 얻을 수 있다.

Keywords

References

  1. S. L. Taylor and R. Fritzson, J A. Pastor, 'Extraction of data from preprinted forms,' International Workshop on Machine Vision Applications, Vol.5, pp.211-222, 1992 https://doi.org/10.1007/BF02626999
  2. R. G. Casey, D. R. Ferguson, K. Mohiuddin and E. Walach, 'Intelligent forms processing system,' International Workshop on Machine Vision Applications, Vol.5, pp.511-529, 1992
  3. J. Mao, M. Abayan and K. Mohiuddin, 'A Model- Based Form Processing Sub-System,' International Conference on Document Analysis and Recognition, pp.691-695, 1996 https://doi.org/10.1109/ICPR.1996.547034
  4. S. Shimotsuji and M. Asano, 'Form Identification based on Cell Structure,' International Conference on Document Analysis and Recognition, pp.793-797, 1996 https://doi.org/10.1109/ICPR.1996.547277
  5. S. W. Lam, L. Javaubakht and S. N. Srihari, 'Anatomy of a form reader,' International Conference on Document Analysis and Recognition, pp.506-509, 1993 https://doi.org/10.1109/ICDAR.1993.395685
  6. T. Watanabe, Q. Luo and N. Sugie, 'Layout Recognition of Multi-Kinds of Table-form Documents,' IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.17, No.4, pp.432-445, 1995 https://doi.org/10.1109/34.385976
  7. A. Ting, M. K. Leung, S.-C. H and K.-Y. Chan, 'A Syntactic Business Form Classifier,' International Conference on Document Analysis and Recognition, pp.301-304, 1995 https://doi.org/10.1109/ICDAR.1995.598999
  8. Y. Ishitani, 'Model Matching Based on Association Graph for Form Image Understanding,' International Conference on Document Analysis and Recognition, pp.287-292, 1995 https://doi.org/10.1109/ICDAR.1995.598996
  9. Y. Hirayama, 'A Method for Table Structure Analysis using DP Matching,' International Conference on Document Analysis and Recognition, pp.583-586, 1995 https://doi.org/10.1109/ICDAR.1995.601964
  10. Jiun-Lin Chen and Hsi-Jian Lee, 'A Novel Form Structure Extraction Method Using Strip Projection,' International Conference on Document Analysis and Recognition, pp. 823-827, 1996 https://doi.org/10.1109/ICPR.1996.547283
  11. T. Sobue and T. 'Watanabe, Identification of Item Fields in Table-form Documents with/without Line Segments,' International Workshop on Machine Vision Applications, pp.522-525, 1996
  12. T. Watanabe, 'Document Analysis and Recognition,' IEICE Trans. Inf. & Syst., Vol.E82-D, No.3, pp. 601-610, 1999
  13. P. Heroux, S. Diana. A. Ribert and E. Trupin, 'Classification Method Study for Automatic Form Class Identification,' International Workshop on Frontiers in Handwriting Recognition, pp.926-928, 1998 https://doi.org/10.1109/ICPR.1998.711385
  14. Y. Hirayama, 'Analyzing Form Images by Using Line-Shared-Adjacent Cell Relations,' International Conference on Document Analysis and Recognition, pp.768-772, 1996 https://doi.org/10.1109/ICPR.1996.547272
  15. T. Sobue and T. Watanabe, 'Identification of Item Fields in Table-form Documents with/without Line Segments,' International Workshop on Machine Vision Applications, pp.522-525, 1996