Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘

  • Choi, Ki-won (Inje-University Institute of Digital Anti-aging Healthcare) ;
  • Choi, Seong-hun (Inje-University Institute of Digital Anti-aging Healthcare) ;
  • Jo, Sang-hyeon (Inje-University Institute of Digital Anti-aging Healthcare) ;
  • Kim, Hee-cheol (Inje-University Institute of Digital Anti-aging Healthcare)
  • 최기원 (인제대학교 디지털 항노화 헬스케어학과 대학원) ;
  • 최성훈 (인제대학교 디지털 항노화 헬스케어학과 대학원) ;
  • 조상현 (인제대학교 디지털 항노화 헬스케어학과 대학원) ;
  • 김희철 (인제대학교 디지털 항노화 헬스케어학과 대학원)
  • Published : 2017.05.31

Abstract

Natural language processing, which is the basis of text mining, differs depending on the type of language. Especially, Hangeul, which has relatively high freedom of expression compared to other languages, has various forms of words depending on the use of ending. The part that does not change in these various forms of words is called the stem. For effective text mining, it is essential to extract words and unify various types of words. Therefore, this paper proposes an extraction algorithm for Hangul word for effective text mining of Hangul document.

텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

Keywords