Korean-English Sentence Alignment using Length and Similarity Information

Hong, Jeen-Pyo;Cha, Jeong-Won;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2010.10a
/
Pages.130-135
/
2010
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Korean-English Sentence Alignment using Length and Similarity Information

길이 정보와 유사도 정보를 이용한 한영 문장 정렬

Hong, Jeen-Pyo (Dept. of Computer Engineering, Changwon National University) ;
Cha, Jeong-Won (Dept. of Computer Engineering, Changwon National University)

홍진표 (창원대학교 컴퓨터공학과) ;
차정원 (창원대학교 컴퓨터공학과)

Published : 2010.10.08

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

문장 정렬은 두 개의 문서 간의 대응이 되는 문장을 찾는 작업이다. 이 방법은 통계적 기계 번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적인 방법이다. 본 연구에서는 길이 정보에 추가적으로 유사도 정보를 반영하는 한영 문장 정렬 방법을 제안한다. 먼저 한국어로 된 문서를 기계번역 시스템에 적용하여 영어 문서로 변환한다. 그리고 번역된 영어로 된 문서 결과와 영어로 된 대상 문서 간의 정렬 작업을 수행한다. 정렬 완료된 결과와 원시 문서, 대상 문서로부터 최종적인 결과를 생성해낸다. 본 논문에서는 기계 번역을 이용하는 방법과 더불어 기존의 길이 기반 문장 정렬 프로그램에 문장 유사도 정보를 추가하여 단어 정렬의 성능 향상을 꾀하였다. 그 결과 "21세기 세종기획"의 최종 배포본 내에 포함된 한영 병렬 말뭉치에 대해 한영 문장 정렬 F-1 자질의 결과가 89.39%를 보였다. 이 수치는 기존의 길이 기반의 단어 정렬의 성능 평가 결과와 비교했을 때 약 8.5% 가량 성능이 향상되었다.

Keywords

SMT

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Korean-English Sentence Alignment using Length and Similarity Information

길이 정보와 유사도 정보를 이용한 한영 문장 정렬

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)