DOI QR코드

DOI QR Code

서로 다른 문장 구조의 병렬 말뭉치 통합을 통한 기계번역 모델 품질의 향상

Improvement of Machine Translation Model Quality through Integration of Parallel Corpora with Different Sentence Structures

  • 김호경 (국립한밭대학교 일반대학원 경영학과) ;
  • 김건우 (국립한밭대학교 융합경영학과) ;
  • 최근호 (국립한밭대학교 융합경영학과)
  • Hokyoung Kim (Department of Business Administration, Graduate School, Hanbat National University) ;
  • Gunwoo Kim (Department of Business Administration, Hanbat National University) ;
  • Keunho Choi (Department of Business Administration, Hanbat National University)
  • 투고 : 2024.02.27
  • 심사 : 2024.06.13
  • 발행 : 2024.08.31

초록

최근 AI 기술이 빠르게 발전하면서 이전에는 개발하기 어려웠던 번역기를 민간에서도 비교적 쉽게 만들 수 있게 되었고, 일반적으로 학습 데이터의 양을 늘릴 경우 번역 품질은 향상되는 경향을 보였다. 하지만 뉴스 데이터로 학습된 기계번역 모델은 동일한 뉴스 데이터를 추가 학습해도 정형화되어 있지 않은 뉴스 데이터의 특성으로 인해 번역 모델의 품질 향상 폭이 크지 않다. 이에 본 연구에서는 이러한 뉴스 데이터가 가진 구조적 한계점을 보완하기 위해 정형화된 문장 구조를 가진 특허 데이터를 기계학습시 학습 데이터에 추가하여 번역 품질을 향상시키고자 하였다. 현재 다양한 문장 구조를 가진 학습 데이터를 조합하여 기계번역 품질을 향상시키는 연구는 많이 이루어지지 않았으며, 대부분의 연구는 학습 데이터 자체의 품질이나 오류율을 최소화하는 데 중점을 두고 있다. 이를 위해 본 연구는 다양한 문장 구조를 가진 뉴스 학습 데이터와 정형화된 문장 구조를 가진 특허 학습 데이터의 비율을 조정하여 다양한 번역 모델을 생성하였고, 생성된 번역 모델의 품질 변화에 대한 분석을 수행하였다. 실험 결과, 뉴스 데이터와 특허 데이터의 비율을 2:8로 조정한 학습 데이터로 생성한 모델의 품질이 가장 좋게 나타났으며, 뉴스 데이터로만 학습한 모델 대비 66.7% 높은 품질을 보이는 것으로 나타났다.

Recent advances in AI technology have rapidly made it relatively easy for the public to develop translation systems that were previously difficult to create. Generally, increasing the amount of training data has tended to improve translation quality. However, machine translation models trained on news data do not show significant improvements in translation model quality even when additional news data is used for training, due to the unstructured nature of news data. In this study, we aimed to enhance translation quality by supplementing training data with patent data that has structured sentence patterns to address these structural limitations of news data. Research on improving machine translation quality by combining training data with various sentence structures is not extensively conducted, with most focusing on minimizing the quality or error rate of the training data itself. To address this, we generated various translation models by adjusting the ratio of news training data with structured patent training data and analyzed the quality changes of the generated translation models. Experimental results showed that the model trained with a 2:8 ratio of news data to patent data exhibited the highest quality, demonstrating a 66.7% improvement compared to models trained only on news data.

키워드

참고문헌

  1. 권순모, 이종혁, "다중 양상 기반 기계 번역시스템에서 사진 정보량의 제한을 통한 번역품질 연구", 한국소프트웨어종합학술대회 논문집, 2019, pp. 371-373.
  2. 김세린, 장칭하오, 권혁철, "도메인 지식에 특화된 신경망 기계번역", 한국정보과학회 학술발표논문집, 2022, pp. 678-680.
  3. 김준석, "일상생활 속으로 들어온 기계 번역", 새국어생활, 제27권, 제4호, 2017, pp. 63-79.
  4. 김현, 신재훈, 이원기, 조승우, 이종혁, "심층학습 기반의 Predictor-Estimator 모델을 이용한 영어-한국어 기계번역 품질 예측", 정보과학회논문지, 제45권, 제6호, 2018, pp. 545-553. https://doi.org/10.5626/JOK.2018.45.6.545
  5. 박찬준, 임희석, "공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구", 디지털융복합연구, 제18권, 제6호, 2020, pp. 271-277.
  6. 박찬준, 박기남, 문현석, 어수경, 임희석, "인공신경망 기계번역에서 말뭉치 간의 균형성을 고려한 성능 향상 연구", 한국융합학회논문지, 제12권, 제5호, 2021, pp. 23-29.
  7. 마승혜, 성승은, "다단계 기계번역을 활용한 비전문가 번역 품질 향상 방안 모색 - 학부실습 과정 및 결과 분석을 중심으로", 번역학연구, 제20권, 제4호, 2019, pp. 83- 113. https://doi.org/10.15749/JTS.2019.20.4.004
  8. 변길자, "기계번역을 활용한 한영번역에서의 번역품질 비교연구", 영어영문학, 제26권, 제3호, 2021, pp. 233-259. https://doi.org/10.46449/MJELL.2021.08.26.3.233
  9. 송영재, 장승우, 김광수, "ResNet 정확도 향상을 위한 깊이별 Residual Connection 비율 조절방법 제안", 한국지능시스템학회 논문지, 제31권, 제4호, 2021, pp. 338-345.
  10. 서영애, "기계번역 기술 개요 및 동향", 정보과학회지, 제39권, 제4호, 2021, pp. 46-53.
  11. 이성화, 김세현, "영-한 및 한-영 기계번역 품질 향상을 위한 프리에디팅 기법 제안", 번역학연구, 제19권, 제5호, 2018, pp. 121-154.
  12. 어수경, 박찬준, 서재형, 문현석, 임희석, "Zero-Shot 기반 기계번역 품질 예측 연구", 한국융합학회논문지, 제12권, 제11호, 2021, pp. 35-43.
  13. 최희열, "신경망 기반 기계번역 모델의 이해", 정보과학회지, 제37권, 제2호, 2019, pp. 16-24.
  14. 한현희, "한노 기계번역의 오류 유형화 및 품질개선을 위한 프리에디팅(pre-editing) 규칙 제안", 통번역학연구, 제23권, 제3호, 2018, pp. 292-327.
  15. 허담, 이원기, 이종혁, "다중 인코더 구조를 활용한 기계번역 품질 예측", 정보과학회논문지, 제49권, 제7호, 2022, pp. 521-529. https://doi.org/10.5626/JOK.2022.49.7.521
  16. Choi, J., J. Park, and J. Suh, "Evaluating the current state of ChatGPT and its disruptive potential: An empirical study of Korean users", Asian Pacific Journal of Information Systems, Vol.33, No.4, 2023, pp. 1058-1092. https://doi.org/10.14329/apjis.2023.33.4.1058
  17. Gowda, T. and J. May, "Finding the optimal vocabulary size for neural machine translation", In Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2020, 2020, pp. 3955-3964.
  18. Kang, H., A. Moon, and S. Jeon, "Examining the generative artificial intelligence landscape: Current status and policy strategies", Asian Pacific Journal of Information Systems, Vol.34, No.1, 2024, pp. 150-190. https://doi.org/10.14329/apjis.2024.34.1.150
  19. Klein, G., Y. Kim, Y. Deng, J. Senellart, and A. Rush, "OpenNMT: Open-source toolkit for neural machine translation", In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics-System Demonstrations, 2017, pp. 67-72.
  20. Koehn, P., Statistical Machine Translation, Cambridge University Press, Cambridge, 2010.
  21. Papineni, K., S. Roukos, T. Ward, and W. Zhu, "Bleu: A method for automatic evaluation of machine translation", In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002, pp. 311-318.
  22. Post, M., "A call for clarity in reporting BLEU scores", In Proceedings of the Third Conference on Machine Translation: Research Papers, 2018, pp. 186-191.
  23. Sergei, N., "Knowledge-based machine translation", Machine Translation, Vol.4, No.1, 1989, pp. 5-24. https://doi.org/10.1007/BF00367750
  24. Sivakumar, M. and S. R. Uyyala, "Aspect-based sentiment analysis of product reviews using multi-agent deep reinforcement learning", Asian Pacific Journal of Information Systems, Vol.32, No.2, 2022, pp. 226-248. https://doi.org/10.14329/apjis.2022.32.2.226
  25. Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, "Attention is all you need", In Proceedings of the 31st Conference on Neural Information Processing Systems, 2017, pp. 5998-6008.
  26. "기계번역, 언어의 장벽을 허물다", 카이스트신문, 2020, Retrieved from https://times.kaist.ac.kr/news/articleView.html?idxno=10299.