Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상

  • Lee, Won-Kee (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Kim, Young-Gil (Electronics and Telecommunications Research Institute) ;
  • Lee, Eui-Hyun (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Kwon, Hong-Seok (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Jo, Seung-U (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Cho, Hyung-Mi (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Lee, Jong-Hyeok
  • 이원기 (포항공과대학교 컴퓨터공학과) ;
  • 김영길 (한국전자통신연구원) ;
  • 이의현 (포항공과대학교 컴퓨터공학과) ;
  • 권홍석 (포항공과대학교 컴퓨터공학과) ;
  • 조승우 (포항공과대학교 컴퓨터공학과) ;
  • 조형미 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁
  • Published : 2016.10.07

Abstract

한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

Acknowledgement

Grant : 지식증강형 실시간 동시통역 원천기술 개발

Supported by : 정보통신기술진흥센터, (주)시스트란인터내셔널