Semiautomatic Pattern Mining for Training a Relation Extraction Model

관계추출 모델 학습을 위한 반자동 패턴 마이닝

  • Choi, GyuHyeon (Korean Advanced Institute of Science and Technology, Machine Reading Lab.) ;
  • nam, Sangha (Korean Advanced Institute of Science and Technology, Machine Reading Lab.) ;
  • Choi, Key-Sun (Korean Advanced Institute of Science and Technology, Machine Reading Lab.)
  • 최규현 (한국과학기술원, 기계독습연구실) ;
  • 남상하 (한국과학기술원, 기계독습연구실) ;
  • 최기선 (한국과학기술원, 기계독습연구실)
  • Published : 2016.10.07

Abstract

본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

Keywords