Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation

음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기

  • 송치성 (엔씨소프트 AI센터 Speech Lab) ;
  • 한명수 (엔씨소프트 AI센터 Speech Lab) ;
  • 조훈영 (엔씨소프트 AI센터 Speech Lab) ;
  • 이경님 (엔씨소프트 AI센터 Speech Lab)
  • Published : 2018.10.12

Abstract

온라인 게시판 글과 채팅창에서 주고받는 대화는 실제 사용되고 있는 구어체 특성이 잘 반영된 텍스트 코퍼스로 음성인식의 언어 모델 재료로 활용하기 좋은 학습 데이터이다. 하지만 온라인 특성상 노이즈가 많이 포함되어 있기 때문에 학습에 직접 활용하기가 어렵다. 본 논문에서는 사용자 입력오류가 다수 포함된 문장에서의 한글 오류 보정을 위한 sequence-to-sequence Denoising Autoencoder 모델을 제안한다.