A Study on Keywords Extraction based on Semantic Analysis of Document

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구

  • Song, Min-Kyu (School of Mechanical Engineering, Yonsei University) ;
  • Bae, Il-Ju (School of Mechanical Engineering, Yonsei University) ;
  • Lee, Soo-Hong (School of Mechanical Engineering, Yonsei University) ;
  • Park, Ji-Hyung (Intelligence and Interaction Research Center, Korea Institute of Science and Technology)
  • 송민규 (연세대학교 기계공학부) ;
  • 배일주 (연세대학교 기계공학부) ;
  • 이수홍 (연세대학교 기계공학부) ;
  • 박지형 (한국과학기술연구원 지능인터렉션 연구센터)
  • Published : 2007.11.23

Abstract

지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

Keywords