Word Segmentation and POS tagging using Seq2seq Attention Model

seq2seq 주의집중 모델을 이용한 형태소 분석 및 품사 태깅

  • Chung, Euisok (ETRI, Spoken Language Processing Research Section) ;
  • Park, Jeon-Gue (ETRI, Spoken Language Processing Research Section)
  • 정의석 (한국전자통신연구원, 음성처리연구실) ;
  • 박전규 (한국전자통신연구원, 음성처리연구실)
  • Published : 2016.10.07

Abstract

본 논문은 형태소 분석 및 품사 태깅을 위해 seq2seq 주의집중 모델을 이용하는 접근 방법에 대하여 기술한다. seq2seq 모델은 인코더와 디코더로 분할되어 있고, 일반적으로 RNN(recurrent neural network)를 기반으로 한다. 형태소 분석 및 품사 태깅을 위해 seq2seq 모델의 학습 단계에서 음절 시퀀스는 인코더의 입력으로, 각 음절에 해당하는 품사 태깅 시퀀스는 디코더의 출력으로 사용된다. 여기서 음절 시퀀스와 품사 태깅 시퀀스의 대응관계는 주의집중(attention) 모델을 통해 접근하게 된다. 본 연구는 사전 정보나 자질 정보와 같은 추가적 리소스를 배제한 end-to-end 접근 방법의 실험 결과를 제시한다. 또한, 디코딩 단계에서 빔(beam) 서치와 같은 추가적 프로세스를 배제하는 접근 방법을 취한다.

Acknowledgement

Grant : 언어학습을 위한 자유발화형 음성 대화처리 원천기술 개발

Supported by : 정보통신기술진흥센터