DOI QR코드

DOI QR Code

Selection of the Optimal Morphological Analyzer for a Korean Word2vec Model

한국어 Word2vec 모델을 위한 최적의 형태소 분석기 선정

  • Kang, Hyungsuc (Dept. of New Media, Seoul Media Institute of Technology) ;
  • Yang, Janghoon (Dept. of New Media, Seoul Media Institute of Technology)
  • 강형석 (서울미디어대학원 대학교 뉴미디어학부) ;
  • 양장훈 (서울미디어대학원 대학교 뉴미디어학부)
  • Published : 2018.10.31

Abstract

본 논문의 목적은 오픈 소스로 공개된 3가지 한국어 형태소 분석기 (kkma, twitter 및 mecab-ko)를 비교해서 한국어 자연어 처리에 가장 적합한 분석기를 선정하는 것이다. 이를 위해, 자연어 처리 분야에서 중요한 단어 임베딩 방법론 중 하나인 word2vec 모델의 성능 검증 방법을 사용해서 각 형태소 분석기의 성능을 정량적으로 비교했다. 그 결과 mecab-ko 형태소 분석기가 최적임이 확인되었다. 단 성능 검증에 사용된 어휘가 오직 명사뿐이라는 한계가 있으므로, 향후 연구에서는 좀 더 다양한 품사에 대한 성능검증이 필요할 것으로 보인다.

Keywords

Acknowledgement

Supported by : 한국연구재단