Expansion and Improvement of Korean FrameNet utilizing linguistic features

언어적 특징을 반영한 한국어 프레임넷 확장 및 개선

  • Kim, Jeong-uk (Korea Institute of Science and Technology, Machine Reading Lab) ;
  • Choi, Key-Sun (Korea Institute of Science and Technology, Machine Reading Lab)
  • 김정욱 (한국과학기술원, 기계독습연구실) ;
  • 최기선 (한국과학기술원, 기계독습연구실)
  • Published : 2016.10.07

Abstract

프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

Acknowledgement

Grant : WiseKB: 빅데이터 이해 기반 자가 학습형 지식베이스 및 추론 기술 개발

Supported by : 정보통신기술진흥센터, 한국연구재단