Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews

화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축

  • Hwang, Chang-Hoe (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Yoo, Gwang-Hoon (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Choi, Seong-Yong (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Shin, Dong-Heouk (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies) ;
  • Nam, Jee-Sun (DICORA, Department of Linguistics and Cognitive Science, Hankuk University of Foreign Studies)
  • 황창회 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 유광훈 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 최성용 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 신동혁 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA)) ;
  • 남지순 (한국외국어대학교 언어어인지과학과, 디지털언어지식콘텐츠연구센터(DICORA))
  • Published : 2018.10.12

Abstract

본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.