DOI QR코드

DOI QR Code

Morpheme Recovery Based on Naïve Bayes Model

NB 모델을 이용한 형태소 복원

  • 김재훈 (한국해양대학교 IT공학부) ;
  • 전길호 (한국해양대학교 컴퓨터공학과)
  • Received : 2012.02.21
  • Accepted : 2012.04.11
  • Published : 2012.06.30

Abstract

In Korean, spelling change in various forms must be recovered into base forms in morphological analysis as well as part-of-speech (POS) tagging is difficult without morphological analysis because Korean is agglutinative. This is one of notorious problems in Korean morphological analysis and has been solved by morpheme recovery rules, which generate morphological ambiguity resolved by POS tagging. In this paper, we propose a morpheme recovery scheme based on machine learning methods like Na$\ddot{i}$ve Bayes models. Input features of the models are the surrounding context of the syllable which the spelling change is occurred and categories of the models are the recovered syllables. The POS tagging system with the proposed model has demonstrated the $F_1$-score of 97.5% for the ETRI tree-tagged corpus. Thus it can be decided that the proposed model is very useful to handle morpheme recovery in Korean.

한국어는 교착어이어서 형태소 분석 없이 품사 부착이 어려울 뿐 아니라 형태소를 분석할 때 다양한 어형 변화가 복원되어야 한다. 이것은 한국어 형태소 분석의 고질적인 문제 중 하나이며, 주로 규칙을 이용해서 해결한다. 규칙을 이용할 경우 주어진 문맥에 가장 적합한 복원을 어려워 여러 형태의 모호성을 생성하며, 이는 품사 부착에 의해서 해결된다. 본 논문에서는 이 문제를 기계학습 방법(Na$\ddot{i}$ve Bayes 모델)을 이용하여 해결한다. 기계학습 모델의 입력 자질은 어형 변화가 발생하는 주변 음절이며 출력 범주는 복원된 음절이다. ETRI 구문 말뭉치를 이용한 실험에서 제안된 형태소 복원 모델을 사용한 형태소 단위의 품사 부착 성능은 97.5%의 $F_1$점수를 보였으며 이 모델이 형태소 복원에 매우 유용함을 알 수 있었다.

Keywords

References

  1. A. R. Martinez, "Part-of-Speech tagging", WIREs Computational Statistics, Vol.4, pp.107-113, 2012. https://doi.org/10.1002/wics.195
  2. P. J. Antony and K. P. Soman, "Parts Of Speech Tagging for Indian Languages: A Literature Survey", International Journal of Computer Applications, Vol.34, No.8. pp.22-29, 2011.
  3. 김재훈, "가중치망 모델을 이용한 한국어 품사 태깅", 한국정보과학회논문지, 제 25권 제 6호, pp.951-959, 1998.
  4. 임희석, 김진동, 임해창, "통계 정보와 언어 지식의 보완적 특성을 고려한 혼합형 품사 태깅", 정보과학회논문지B, 제 25권 제11호, pp.1705-1715, 1998.
  5. 김재훈, 이공주, "사례기반 학습을 이용한 음절기반 한국어 단어 분리 및 범주 결정", 정보처리학회논문지B, 제 10권 제 1호, pp.47-56, 2003. https://doi.org/10.3745/KIPSTB.2003.10B.1.047
  6. 심광섭, "형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅", 인지과학, 제 22권 제 3호, pp.327-345, 2011.
  7. C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.
  8. X.-H. Phan, CRFTagger: CRF English POS Tagger, http://crftagger.sourceforge.net/, 2006.
  9. I. G. Councill, C. L. Giles, and M.-Y. Kan, "ParsCit: An open-source CRF reference string parsing package", Proceedings of the Language Resources and Evaluation Conference (LREC 08), pp.661-667, 2008.
  10. L. Ramshaw and M. Marcus, "Text chunking using transformation-based learning", Proceedings of the 3rd Workshop on Very Large Corpora (ACL 1995), pp.82-94, 1995.
  11. 전길호, 기계학습을 이용한 음절기반 품사 부착, 한국해양대학교 대학원, 컴퓨터공학과, 석사학위 논문, 2012.
  12. 김재훈 외, 구문구조 부착 말뭉치 구축, 모비코앤시스메타(주), 최종보고서, 2005.
  13. http://crfpp.googlecode.com/svn/trunk/doc/index.html
  14. C. D. Manning, P. Raghavan, and H. Schutze, Introduction to Information Retrieval, Cambridge University Press, 2007.