An Effective Sentence Similarity Measure Method Based FAQ System Using Self-Attentive Sentence Embedding

Self-Attention 기반의 문장 임베딩을 이용한 효과적인 문장 유사도 기법 기반의 FAQ 시스템

  • Kim, Bosung (Department of Computer Science and Engineering, Sogang University) ;
  • Kim, Juae (Department of Computer Science and Engineering, Sogang University) ;
  • Lee, Jeong-Eom (Robotics Team, Hyundai Motor Company) ;
  • Kim, Seona (Robotics Team, Hyundai Motor Company) ;
  • Ko, Youngjoong (Department of Computer Science and Engineering, Dong-A University) ;
  • Seo, Jungyun (Department of Computer Science and Engineering, Sogang University)
  • 김보성 (서강대학교 컴퓨터공학과) ;
  • 김주애 (서강대학교 컴퓨터공학과) ;
  • 이정엄 (현대자동차 로보틱스팀) ;
  • 김선아 (현대자동차 로보틱스팀) ;
  • 고영중 (동아대학교 컴퓨터공학과) ;
  • 서정연 (서강대학교 컴퓨터공학과)
  • Published : 2018.10.12

Abstract

FAQ 시스템은 주어진 질문과 가장 유사한 질의를 찾아 이에 대한 답을 제공하는 시스템이다. 질의 간의 유사도를 측정하기 위해 문장을 벡터로 표현하며 일반적으로 TFIDF, Okapi BM25와 같은 방법으로 계산한 단어 가중치 벡터를 이용하여 문장을 표현한다. 하지만 단어 가중치 벡터는 어휘적 정보를 표현하는데 유용한 반면 단어의 의미적인(semantic) 정보는 표현하기 어렵다. 본 논문에서는 이를 보완하고자 딥러닝을 이용한 문장 임베딩을 구축하고 단어 가중치 벡터와 문장 임베딩을 조합한 문장 유사도 계산 모델을 제안한다. 또한 문장 임베딩 구현 시 self-attention 기법을 적용하여 문장 내 중요한 부분에 가중치를 주었다. 실험 결과 제안하는 유사도 계산 모델은 비교 모델에 비해 모두 높은 성능을 보였고 self-attention을 적용한 실험에서는 추가적인 성능 향상이 있었다.