Rule Based Document Conversion and Information Extraction on the Word Document

전자문서의 XML 문서로의 변환 및 저장 시스템

  • Joo Won-Kyun (Korea Institute of Science and Technology Information) ;
  • Yang Myung-Seok (Korea Institute of Science and Technology Information) ;
  • Kim Tae-Hyun (Korea Institute of Science and Technology Information) ;
  • Lee Min-Ho (Korea Institute of Science and Technology Information) ;
  • Choi Ki-Seok (Korea Institute of Science and Technology Information)
  • Published : 2006.06.01

Abstract

본 논문은 HWP, DOC와 같은 전자 문서에서 사용자가 제공한 구조적인 규칙과 XML 기반 전자 문서 변환 기법을 이용함으로써, 사용자의 관심 영역에 해당하는 다양한 형태(표, 리스트 등)의 정보를 효과적으로 추출(변환)하여 저장하기 위한 방법에 관한 것이다. 본 논문에서 제시한 시스템은 3가지의 중요한 요소들로 구성되어 있는데, 1)전자문서의 원시 XML 문서로의 변환 방법 2)XML 기반 구조적인 규칙과 작성된 규칙을 이용하여 원시 XML 문서에서 정보를 추출(변환)하는 방법, 3)추출 된 정보에서 최종 XML을 생성하거나 DB에 저장하는 방법이 그것이다. 전자문서의 변환을 위해서 독립적으로 동작하는OCX 기반의 전자문서 변환 데몬(Daemon)을 개발하였고, 사용자의 정보 추출(변환)과정을 돕기 위해서 XSLT를 확장한 형태의 스크립트 언어를 개발하였다. 스크립트 언어는 비교적 간단한 문법 구조를 가지고 있고, 데이터 처리를 위한 자체 정의 함수와 변수를 사용한다. 추출된 정보는 원하는 형태의 데이터 포멧으로 생성하거나 DB에 저장할 수 있다. 본 시스템은 전자 문서 원문 정보에 대한 데이터베이스 구축 및 서비스의 제공, 혹은 구축된 데이터베이스를 이용하여 다양한 현황 통계를 제공하는 분야에서 유용하게 사용할 수 있다. 실제로 연구과제관리시스템과 성과정보시스템에 적용하여 그 성과를 입증하였다.

Keywords