Universal POS Tagset for Korean

Universal POS 태그셋의 한국어 적용

  • Park, Hye-Jin (Department of Korean Language and Literature, Yonsei University) ;
  • Oh, Tae-Hwan (Department of Korean Language and Literature, Yonsei University) ;
  • Kim, Han-Saem (Yonsei Institute of Language and Information Studies)
  • 박혜진 (연세대학교 국어국문학과) ;
  • 오태환 (연세대학교 국어국문학과) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2018.10.12

Abstract

The Universal Dependencies 프로젝트는 현재 71개 언어, 122개 Treebank로 이루어져 있으며, 병렬 언어 처리를 위해 여러 언어에 적용할 수 있는 형태적, 구문론적 특성을 찾는 것을 목표로 한다. 본고는 UD의 형태 태그셋인 Universal POS를 살펴보고, 한국어의 기존 형태 태그셋을 UPOS로 자동 변환하여 적용하는 방안을 제안한다. 영어와 같은 굴절어를 중심으로 구축된 UPOS 체계를 교착어에 속하는 한국어에 적용하기 위해서는 UPOS의 개별 표지와 21세기 세종계획 형태 주석 표지 결합체 간의 일대다 사상을 시도해야 한다.

Acknowledgement

Supported by : 한국연구재단