Korean Compound Noun Decomposition using Noun Bigram Model

명사 brigram 모델을 이용한 한국어 복합명사 분해

  • 강민규 (국민대학교 컴퓨터공학부) ;
  • 강승식 (국민대학교 컴퓨터공학부)
  • Published : 2010.10.08

Abstract

본 논문에서는 명사의 띄어쓰기 bigram과 단일명사 정보를 이용하여 복합명사를 분해하는 방법을 제시한다. 붙여쓰기와 띄어쓰기를 모두 허용하는 복합명사의 특징에 따라 띄어쓰기 bigram으로 후보를 선정할 경우, 분해시간과 후보의 수를 크게 줄일 수 있으며, 긴 음절의 복합명사도 bigram의 chain을 통해 빠르게 후보 조합이 가능하다. 분해 후보가 복수일 경우, 명사 간 bigram 확률을 계산하여 최적의 분해 후보를 선정한다.