Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법

  • Cho, Seung-Woo (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Kim, Young-Gil (Electronics and Telecommunications Research Institute) ;
  • Kwon, Hong-Seok (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Lee, Eui-Hyun (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Lee, Won-Ki (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Cho, Hyung-Mi (Pohang University of Science and Technology, Department of Computer Science & Engineering) ;
  • Lee, Jong-Hyeok
  • 조승우 (포항공과대학교 컴퓨터공학과) ;
  • 김영길 (한국전자통신연구원) ;
  • 권홍석 (포항공과대학교 컴퓨터공학과) ;
  • 이의현 (포항공과대학교 컴퓨터공학과) ;
  • 이원기 (포항공과대학교 컴퓨터공학과) ;
  • 조형미 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁
  • Published : 2016.10.07

Abstract

본 논문에서는 기호로 둘러싸인 내포문이 포함된 문장의 번역 성능을 높이는 방법을 제안한다. 입력 문장에서 내포문을 추출하여 여러 문장으로 나타내고, 각각의 문장들을 번역한다. 그리고 번역된 문장들을 복원정보를 활용하여 최종 번역 문장을 생성한다. 이러한 방법론은 입력 문장의 길이를 줄여주며, 그로 인하여 문장 구조가 단순해져 번역 품질이 향상된다. 본 논문에서는 한국어-베트남어 통계 기반 번역기에 대하여 제안한 방법론을 적용하고 실험하였다. 그 결과 BLEU 점수가 약 1.5 향상된 것을 확인할 수 있었다.

Acknowledgement

Grant : 지식 증강형 실시간 동시통역 원천기술 개발

Supported by : 정보통신기술진흥센터, (주)시스트란인터내셔널