CRFs versus Bi-LSTM/CRFs: Automatic Word Spacing Perspective

CRFs와 Bi-LSTM/CRFs의 비교 분석: 자동 띄어쓰기 관점에서

  • Yoon, Ho (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Kim, Chang-Hyun (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Cheon, Min-Ah (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Park, Ho-min (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Namgoong, Young (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Choi, Minseok (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
  • Kim, Jae-Hoon (Korea Maritime and Ocean University, Dept. of Computer Engineering)
  • 윤호 (한국해양대학교, 컴퓨터공학과) ;
  • 김창현 (한국해양대학교, 컴퓨터공학과) ;
  • 천민아 (한국해양대학교, 컴퓨터공학과) ;
  • 박호민 (한국해양대학교, 컴퓨터공학과) ;
  • 남궁영 (한국해양대학교, 컴퓨터공학과) ;
  • 최민석 (한국해양대학교, 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교, 컴퓨터공학과)
  • Published : 2018.10.12

Abstract

자동 띄어쓰기란 컴퓨터를 사용하여 띄어쓰기가 수행되어 있지 않은 문장에 대해 띄어쓰기를 수행하는 것이다. 이는 자연언어처리 분야에서 형태소 분석 전에 수행되는 과정으로, 띄어쓰기에 오류가 발생할 경우, 형태소 분석이나 구문 분석 등에 영향을 주어 그 결과의 모호성을 높이기 때문에 매우 중요한 전처리 과정 중 하나이다. 본 논문에서는 기계학습의 방법 중 하나인 CRFs(Conditional Random Fields)를 이용하여 자동 띄어쓰기를 수행하고 심층 학습의 방법 중 하나인 양방향 LSTM/CRFs (Bidirectional Long Short Term Memory/CRFs)를 이용하여 자동 띄어쓰기를 수행한 뒤 각 모델의 성능을 비교하고 분석한다. CRFs 모델이 양방향 LSTM/CRFs모델보다 성능이 약간 더 높은 모습을 보였다. 따라서 소형 기기와 같은 환경에서는 CRF와 같은 모델을 적용하여 모델의 경량화 및 시간복잡도를 개선하는 것이 훨씬 더 효과적인 것으로 생각된다.

Acknowledgement

Grant : 지식 증강형 실시간 동시통역 원천기술 개발

Supported by : 정보통신기술진흥센터, 한국연구재단