DOI QR코드

DOI QR Code

Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측

  • 김성동 (한성대학교 컴퓨터공학과)
  • Published : 2006.06.01

Abstract

The practical English-Korean machine translation system should be able to translate long sentences quickly and accurately. The intra-sentence segmentation method has been proposed and contributed to speeding up the syntactic analysis. This paper proposes the syntactic category prediction method using decision trees for getting accurate parsing results. In parsing with segmentation, the segment is separately parsed and combined to generate the sentence structure. The syntactic category prediction would facilitate to select more accurate analysis structures after the partial parsing. Thus, we could improve the parsing accuracy by the prediction. We construct features for predicting syntactic categories from the parsed corpus of Wall Street Journal and generate decision trees. In the experiments, we show the performance comparisons with the predictions by human-built rules, trigram probability and neural networks. Also, we present how much the category prediction would contribute to improving the translation quality.

실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

Keywords

References

  1. 김성동, '효율적인 영어 구문 분석을 위한 최대 엔트로피 모델에 의한 문장 분할' 한국정보과학회 논문지, 제32권 제5호, pp.385-395, 2005
  2. Sung-Dong Kim, Byuong-Tak Zhang, Yung Taek Kim, 'Learning-based Intrasentence Segmentation for Efficient Translation of Long Sentences,' Journal of Machine Translation. Vol.16, No.3, pp.151-174, 2001 https://doi.org/10.1023/A:1019896420277
  3. 김성동, 김영택, '효율적인 영어 구문 분석을 위한 문장 분할', 한국정보과학회 논문지, 제24권 제8호, pp.884-890, 1997
  4. Abney, Steven, 'Parsing by Chunks,' Principle-Based Parsing, Robert Berwick, Steven Abney and Carol Tenny(eds), Kluwer Academic Publishers, pp.257-279, 1991
  5. Abney, Steven, 'Chunks and Dependencies : Bringing Processing Evidence to Bear on Syntax. Computational Linguistics and the Foundations of Linguistic Theory,' Jennifer Cole, Georgia M. Green and Jerry L. Morgan (eds). CSLI Publications, pp.145-164, 1995
  6. Abney, Steven, 'Partial Parsing via Finite-State Cascades,' In Proceedings of ESSLLI Workshop on Robust Parsing Workshop, Praque, 1996
  7. Sung Dong Kim and Yung Taek Kim, 'Sentence Analysis using Pattern Matching in English-Korean Machine Translation,' In Proceedings of 1995 International Conference on Computer Processing on Oriental Languages, pp.199-206, 1995
  8. 양승현, '영한 기계번역을 위한 언어 스타일의 변환,' 서울대학교 대학원 박사학위 논문, 1997
  9. Martin Fodslette Moller, 'A scaled conjugate gradient algorithm for fast supervised learning,' Neural Networks, Vol.6, pp.525-533, 1993 https://doi.org/10.1016/S0893-6080(05)80056-5