DOI QR코드

DOI QR Code

Implementation of a Journal's Table of Contents Separation System based on Contents Analysis

내용분석을 통한 논문지의 목차분류 시스템의 구현

  • Published : 2007.12.31

Abstract

In this paper, a method for automatic indexing of contents to reduce effort for inputting paper information and constructing index is considered. Existing document analysis methods can't analyse various table of contents of journal paper formats efficiently because they have many exceptions. In this paper, various contents formats for journals, which have different features from those for general documents, are analysed and described. The principal elements that we want to represent are titles, authors, and pages for each papers. Thus, the three principal elements are modeled according to the order of their arrangement, and their features are extracted. And a table of content recognition system of journal is implemented, based on the proposed modeling method. The accuracy of exact extraction ratio of 91.5% on title, author, and page type on 660 published papers of various journals is obtained.

본 논문에서는 논문지 정보를 데이터베이스화하는 시스템의 구축에 있어 논문지 정보를 입력하고 색인을 구성하는 데 드는 노력을 줄이기 위해 목차를 자동으로 생성하기 위한 방법을 제안하고 있다. 기존의 문서분석방법으로는 예외적인 부분이 많은 목차 형식을 효과적으로 분석할 수 없었으며 우리가 원하는 부분을 효과적으로 추출할 수가 없었으므로 본 논문에서는 논문지 목차의 효율적인 인식을 위한 구조적인 분석방법을 제안하고 있다. 논문지 목차에서 표현하고자 하는 가장 필수적인 요소는 논문지에 실린 논문의 제목, 저자, 페이지 등 세 항목이므로 이 세 가지 항목을 추출하기 위하여 모델링하고 특성을 분석하고 있다. 제안한 모델링 방법에 따른 목차 인식 시스템을 구현하여 제목, 저자, 페이지 등의 순서를 갖는 논문 목차를 대상으로 660편에 대하여 측정한 결과 91.5%의 논문추출 성공률을 얻었다.

Keywords

References

  1. 김병기, '연결요소와 색상정보를 이용한 실제적 문서영상 분할', 한국정보처리학회 논문지 A, Vol.7, No.1, pp.273-285, 2000
  2. 변영철, 최영우, 김경환, 이일병, '부분 매칭 방법을 이용한 효율적인 서식 문서 분류', 한국정보처리학회 논문지 B, Vol. 8-B, No.1, pp.1-9, 2001
  3. 이경호, 최윤철, 조성배, '문서 영상의 논리적인 구조 분석을 위한 구문론적인 접근 방식', 한국정보과학회 논문지 B - 소프트웨어 및 응용, Vol.28, No.7, pp.524-536, 2001
  4. 이성환, 문자인식-이론과 실제, 홍릉과학 출판사, pp. 87-108, 1993
  5. 장대근, 오원근, 양영규, '연결요소와 영역확장을 이용한 문서영상 분할', 한국정보처리학회 제12회 추계학술대회 발표논문집 CD, 일련번호 312, 1999
  6. 장대근, 황찬식, '이미지 필터와 제한조건을 이용한 문서영상 구조분석', 한국정보처리학회 논문지 B, Vol. 9-B, No.3, pp.311-318, 2002
  7. 장명욱, 천대녕, 양현승, '연결화소를 이용한 문서 영상의 분할 및 인식' 한국정보과학회 논문지, Vol. 20, No. 12, pp.1741-1751, 1993
  8. 전병태, 배영래, 양영규, 오길록, '다단계 특징 추출에 의한 일반화된 자막 영역 추출 방법', 제12회 영상처리 및 이해에 관한 워크샵 발표 논문집, pp.429-434, 2000
  9. 정창부, 김수형, '문서 영상 내 테이블 영역에서의 단어 추출', 한국정보처리학회 논문지 B, Vol. 12-B, No.4, pp. 369-378, 2005 https://doi.org/10.3745/KIPSTB.2005.12B.4.369
  10. A. Belaid, L. Pierron, and N. Valverde, 'Part-of-Speech Tagging for Table of Contents Recognition', Proceedings of the International Conference on Pattern Recognition, pp451-454, 2000
  11. S. Bow and R. Kasturi, 'A Graphics-Recognition System for Interpretation of Line Drawing', in Image Analysis Applications, Marcel Dekker, pp.37-72, 1990
  12. R. Crane, A simplified approach to Image Processing, Prentice Hall, 1997
  13. L.A. Fletcher and R. Kasturi, 'A Robust Algorithm for Text String Separation from Mixed Text/Graphics Images', IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.10, No.6, pp.910-918, 1988 https://doi.org/10.1109/34.9112
  14. Gonzalez & Woods, Digital Image Processing, Addsion Wesley Longman, 1992
  15. Y. Hirayama, 'A Block Segmentation Method for Document Image with Complicated Column Structures', Proceedings of the 2nd International Comference on Document Analysis and Recognition, pp.91-94, 1993
  16. X. Lin and Y. Xiong, Detection and Analysis of Table of Contents Based on Content Association, Hewlett -Packard Technical Report, HPL-2005-105, May 31, 2005
  17. S. Mandal, S.P. Chowdhury, A.K. Das, and B. Chanda, 'Automated Detection and Segmentation of Table of Contents Page from Document Images', Proceedings of the 7th International Conference on Document Analysis and Recognition, pp.398-402, 2003
  18. L. O'Gorman, 'The Document Spectrum for Page Layout Analysis', IEEE Trans. on PAMI, Vol. 15, No. 11, pp1162-1173, 1993 https://doi.org/10.1109/34.244677
  19. L. O'Gorman and R. Kasturi, Document Image Analysis, IEEE, 1996
  20. S. Tsujimoto and H. Asada, 'Major Components of A Complete Text Reading System', Proceedings of IEEE. Vol. 80, No.7, pp.1133-1149, 1992 https://doi.org/10.1109/5.156475
  21. S. Tsuruoka and C. Hirano, 'Image-based Structure Analysis for a Table of Contents and Conversion to XML Documents', Proc. DLIA Workshop, 2001
  22. F.M. Wahl, K.Y. Wong and R.G. Gasey, 'Block Segmentation and Text Extraction in Mixed Text/Image Document', Computer Graphics and Image Processing, Academic Press, pp.375-390, 20. 1982 https://doi.org/10.1016/0146-664X(82)90059-4
  23. D. Wang and S.N. Srihari, 'Classification of Newspaper Image Block Using Texture Analysis', Computer Vision, Graphics and Image Processing, Vol.47, pp327-352, 1989 https://doi.org/10.1016/0734-189X(89)90116-3