질의응답 시스템에서 형태소임베딩 모델과 GRU 인코더를 이용한 문장유사도 측정

Measuring Sentence Similarity using Morpheme Embedding Model and GRU Encoder for Question and Answering System

  • 이동건 (한국과학기술원(KAIST) 전산학부) ;
  • 오교중 (한국과학기술원(KAIST) 전산학부) ;
  • 최호진 (한국과학기술원(KAIST) 전산학부) ;
  • 허정 (한국전자통신연구원(ETRI) 지식마이닝팀)
  • Lee, DongKeon (Korea Advanced Institute of Science and Technology (KAIST), School of computing) ;
  • Oh, KyoJoong (Korea Advanced Institute of Science and Technology (KAIST), School of computing) ;
  • Choi, Ho-Jin (Korea Advanced Institute of Science and Technology (KAIST), School of computing) ;
  • Heo, Jeong (Electronics and Telecommunications Research Institute (ETRI), Knowledge Mining Team)
  • 발행 : 2016.10.07

초록

문장유사도 분석은 문서 평가 자동화에 활용될 수 있는 중요한 기술이다. 최근 순환신경망을 이용한 인코더-디코더 언어 모델이 기계학습 분야에서 괄목할만한 성과를 거두고 있다. 본 논문에서는 한국어 형태 소임베딩 모델과 GRU(Gated Recurrent Unit)기반의 인코더를 제시하고, 이를 이용하여 언어모델을 한국어 위키피디아 말뭉치로부터 학습하고, 한국어 질의응답 시스템에서 질문에 대한 정답을 유추 할 수 있는 증거문장을 찾을 수 있도록 문장유사도를 측정하는 방법을 제시한다. 본 논문에 제시된 형태소임베딩 모델과 GRU 기반의 인코딩 모델을 이용하여 문장유사도 측정에 있어서, 기존 글자임베딩 방법에 비해 개선된 결과를 얻을 수 있었으며, 질의응답 시스템에서도 유용하게 활용될 수 있음을 알 수 있었다.

과제정보

연구 과제번호 : 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발

연구 과제 주관 기관 : 미래창조과학부