Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법

  • Song, KwangHo (Department of Information and Communication Engineering, Inha University) ;
  • Min, Ji-Hong (Department of Information and Communication Engineering, Inha University) ;
  • Kim, Yoo-Sung (Department of Information and Communication Engineering, Inha University)
  • 송광호 (인하대학교, 정보통신공학과) ;
  • 민지홍 (인하대학교, 정보통신공학과) ;
  • 김유성 (인하대학교, 정보통신공학과)
  • Published : 2016.10.07

Abstract

문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.