A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit

단순화된 어절을 단위로 하는 한국어 품사 태거

  • Lee, Eui-Hyeon (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Kim, Young-Gil (Electronics and Telecommunications Research Institute) ;
  • Shin, Jaehun (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Kwon, Hong-Seok (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Lee, Jong-Hyeok
  • Published : 2016.10.07

Abstract

영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

Acknowledgement

Grant : 지식증강형 실시간 동시통역 원천기술 개발

Supported by : 정보통신기술진흥센터, (주)시스트란인터내셔널