KTS : A Korean Part-of-Speech Tagging System with Handling Unknown Words

KTS : 미등록어를 고려한 한국어 품사 태깅 시스템

  • 이상호 (한국과학기술원 전산학과)
  • Published : 1995.06.01

Abstract

자연언어 처리 시스템의 전단부인 형태소 분석 모듈은 해결해야 할 두 가지 문제를 갖고 있다. 하나는 형태소 분석기가 여러 개의 분석 결과를 출력하여 생기는 품사 중의성이고, 다른 하나는 주어진 문장에 미등록어가 사용되어 형태소 분석이 실패되었을 때이다. 본 논문에서는 이 문제들을 해결하는 한국어 품사 태깅 시스템 KTS를 소개한다. KTS는 주어진 어절에 대해 모든 가능한 분석을 하는 형태소 분석기, 미등록어를 예측하는 미등록어 추정 모듈, 음절 정보와 단서 형태소를 이용하여 미등록어 후보의 수를 줄이는 미등록어 후보 여과기, 그리고 미등록어의 출현을 모델안에 포함한 품사 태깅 모듈로 구성되어 있다. KTS 의 품사태깅 모듈에는 두가지 태깅 방법인 경로 기반 태깅과 상태 기반 태깅의 유일 출력과 다중 출력 기능이 모두 구현되어 있으며, 실험에 의하면, 미등록어가 포함되지 않은 어절에 대해서 89.12%, 미등록어가 포함된 어절에 대해서 68.63%의 정확률을 각각 나타내었다.

Keywords