DOI QR코드

DOI QR Code

도메인 적응 기술을 이용한 한국어 의미역 인식

Korean Semantic Role Labeling Using Domain Adaptation Technique

  • 임수종 (한국전자통신연구원 자동통역인공지능연구센터) ;
  • 배용진 (한국전자통신연구원 자동통역인공지능연구센터) ;
  • 김현기 (한국전자통신연구원 자동통역인공지능연구센터) ;
  • 나동렬 (연세대학교 전산학과)
  • 투고 : 2014.11.28
  • 심사 : 2015.02.16
  • 발행 : 2015.04.15

초록

높은 성능의 의미역 인식 시스템의 개발을 위해서는 대상 도메인에 대한 대량의 수동 태깅 학습 데이터가 필요하다. 그러나 충분한 크기의 의미역 인식용 학습 데이터는 오직 소수의 도메인에서만 존재한다. 소스 도메인의 시스템을 상대적으로 매우 작은 학습 데이터를 가진 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 이러한 도메인 변경에서의 성능 하락 현상을 최소화하기 위해 본 논문에서는 2 가지 기법을 제시한다. 첫째, 도메인 적응 방법론의 하나인 Prior 모델에 기반하여 개발된 한국어 의미역 인식 시스템을 위한 도메인 적응 알고리즘을 제안한다. 둘째, 크기가 작은 타겟 도메인 데이터를 이용할 때 데이터 희귀 문제의 감소를 위해 소스 도메인 데이터 이용시 보다 단순화된 형태소 태그와 구문 태그 자질을 사용할 것을 제안한다. 뉴스 도메인에서 개발된 시스템의 위키피디아 도메인에의 적용과 관련하여 다른 연구의 도메인 적응 기술과 우리가 제안한 방법을 비교 실험하였다. 우리의 두 가지 방법을 같이 사용할 때 더 높은 성능을 달성하는 것을 관찰하였다. 우리 시스템은 F1-score 64.3% 성능으로서 기존의 다른 도메인 적응 기술들과 비교하여 2.4~3.1% 더 높은 성능을 가지는 것으로 관찰되었다.

Developing a high-performance Semantic Role Labeling (SRL) system for a domain requires manually annotated training data of large size in the same domain. However, such SRL training data of sufficient size is available only for a few domains. Performances of Korean SRL are degraded by almost 15% or more, when it is directly applied to another domain with relatively small training data. This paper proposes two techniques to minimize performance degradation in the domain transfer. First, a domain adaptation algorithm for Korean SRL is proposed which is based on the prior model that is one of domain adaptation paradigms. Secondly, we proposed to use simplified features related to morphological and syntactic tags, when using small-sized target domain data to suppress the problem of data sparseness. Other domain adaptation techniques were experimentally compared to our techniques in this paper, where news and Wikipedia were used as the sources and target domains, respectively. It was observed that the highest performance is achieved when our two techniques were applied together. In our system's performance, F1 score of 64.3% was considered to be 2.4~3.1% higher than the methods from other research.

키워드

과제정보

연구 과제번호 : 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발

연구 과제 주관 기관 : 정보통신기술진흥센터

참고문헌

  1. M.Palmer et al., "Korean Propbank," Linguistic Data Consortium, Philadelphia, 2006.
  2. X. Carreras and L. Marquez, "Introduction to the CoNLL-2005 Shared Task: Semantic Role Labeling," Proc. of the CoNLL-2005, pp. 152-154, 2005.
  3. M. Surdeanu et al., "The CoNLL-2008 Shared Task on Joint Parsing of Syntactic and Semantic Dependencies," Proc. of the CoNLL-2008, pp. 159-177, 2008.
  4. S. Lim and H. Kim, "Korean Semantic Role Labeling using Sequence Labeling," Proc. of the KIISE Korea Computer Congress 2014, pp. 595-597, 2014. (in Korean)
  5. H. Daume and D. Marcu, "Domain Adaptation for Statistical Classifiers," Journal of Artificial Intelligence Research, Vol. 26, No. 1, pp. 101-126, 2006.
  6. I. Tsochantaridis, et al., "Support vector machine learning for interdependent and structured output space," Proc. of ICML, 2004.
  7. C. Chelba and A. Acero, "Adaptation of Maximum Entropy Capitalizer: Little Data Can Help a Lot," Journal of Computer Speech Language, Vol. 20, No. 4, pp. 382-399, 2006. https://doi.org/10.1016/j.csl.2005.05.005
  8. C. Lee and M. Jang, "A Prior Model of Structural SVMs for Domain Adaptation," ETRI Journal, Vol. 33, No. 5, pp. 712-719, 2011. https://doi.org/10.4218/etrij.11.0110.0571
  9. J. Bae et al., "Extending Korean PropBank for Korean Semantic Role Labeling and Appllying Domain Adaptation Technique," Proc. of 26th Annual Conference on Human and Cognitive Language Technology, pp. 44-47, 2014. (in Korean)
  10. J. Lim et al., "Korean Dependency Parsing Model based on Transition System using Head Final Constraint," Proc. of 26th Annual Conference on Human and Cognitive Language Technology, pp. 81-86, 2014. (in Korean)

피인용 문헌

  1. Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters vol.43, pp.7, 2016, https://doi.org/10.5626/JOK.2016.43.7.773
  2. Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization vol.43, pp.12, 2016, https://doi.org/10.5626/JOK.2016.43.12.1376