문서의 영역분리와 레이아웃 정보의 추출

The Block Segmentation and Extraction of Layout Information In Document

  • 조용주 (광운대학교 전자계산기공학과) ;
  • 남궁재찬 (광운대학교 전자계산기공학과)
  • 발행 : 1992.10.01

초록

본 논문은 이미 출판된 문서를 대상으로 문서의 영역을 분리하고, 문서의 구성요소와 레이아웃 정보를 추출하는데 새로운 알고리즘을 제안한다. 먼저 300 dpi로 입력된 문서에서 문서를 이루는 각 요소를 영역화 하기 위하여 레이 블링과 블럭화 작업을 행한다. 둘째로 블럭화된 문서의 각 요소를 대상으로 부분영역으로 분리를 수행한다. 셋째로 추출된 부분영역에서 그림영역을 추출하고 문자영역에 대해서는 문자열 추출 및 개변 문자 추출을 한다. 마지막으로 이렇게 추출된 정보로 문서의 레이아웃 인식을 위한 정보를 추출하였다. 실험은 어느정도의 형식을 가진 학회 논문지를 대상으로 하였으며, 문자와 그림 영역의 분류 및 문자열 추출에 대해서 98.5%의 성공율을 얻고, 레이아웃 인식을 위한 정보의 추출에서도 98%의 성과를 보였다.

In this paper, we suggest a new algorithm applied to the segmentation of published documents to obtain constituent and layout information of document. Firstly, we begin the process of blocking and labeling on a 300dpi scanned document. Secondly, we classify the blocked document by individual sub-regions. Thirdly, we group sub-regions into graphic areas and text areas. Finally, we extract information for layout recognition by using the data. From an experiment on papers of an academic society, we obtain the above 98% of region classification rate and extraction rate of information for the layout recognition.

키워드