A Korean Language Stemmer based on Unsupervised Learning

자율 학습에 의한 실질 형태소와 형식 형태소의 분리

  • Cha, Yong-Tae (Dept. of information communication engineering, Myong-Ji University) ;
  • Cho, Se-Hyeong (Dept. of information communication engineering, Myong-Ji University)
  • 차영태 (명지대학교 정보통신공학과) ;
  • 조세형 (명지대학교 정보통신공학과)
  • Published : 2002.11.15

Abstract

자연어의 처리를 위해 반드시 필요한 형태소 분석에는 여러 가지 방법이 있으나 기본적으로 사전을 갖춘 상태에서 가장 가능성 있는 후보를 선택하는 방식을 선택한다. 이러한 방식으로는 사전이 없는 미지의 언어를 분석하기는 불가능하다. 기지의 언어라도 지속적으로 어휘가 변하는 경우나 매우 특별한 분야의 경우에는 필요로 하는 사전이 존재하지 않는다. 본 논문에서는 태그가 없는 단순 말뭉치만을 가지고 자율학습을 이용하여 한국어의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다.

Keywords