한글 문서를 위한 효과적인 색인 방법

An Effective Indexing Method for Hangul Texts

  • 이준호 (한국과학기술연구원 연구개발정보센터) ;
  • 박혁로 (한국과학기술연구원 연구개발정보센터) ;
  • 박현주 (한국과학기술연구원 연구개발정보센터) ;
  • 안정수 (한국과학기술원 전산학과) ;
  • 김명호 (한국과학기술원 전산학과)
  • 발행 : 1995.08.01

초록

기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 색인어의 부분으로서 가치가 없는 음절들을 제거함으로써 색인어를 추출하는 방법으로, 문서에 복합 명사들이 많이 포함되어 있을 경우 검색효과가 저하되는 문제점을 지니고 있다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로, 단일 명사를 추출함으로써 복합 명사의 띄어 쓰기 문제를 극복할 수 있다. 그러나, 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

키워드