Korean Instruction Tuning Dataset

언어 번역 모델을 통한 한국어 지시 학습 데이터 세트 구축

  • Published : 2023.10.12

Abstract

최근 지시 학습을 통해 미세 조정한 자연어 처리 모델들이 큰 성능 향상을 보이고 있다. 하지만 한국어로 학습된 자연어 처리 모델에 대해 지시 학습을 진행할 수 있는 데이터 세트는 공개되어 있지 않아 관련 연구에 큰 어려움을 겪고 있다. 본 논문에서는 T5 기반 한국어 자연어 처리 모델인 Long KE-T5로 영어 데이터 세트를 번역하여 한국어 지시 학습 데이터 세트를 구축한다. 또한 구축한 데이터 세트로 한국어로 사전 학습된 Long KE-T5 모델을 미세 조정한 후 성능을 확인한다.

Keywords

Acknowledgement

이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임