BLEU 를 활용한 단기 서술형 답안의 자동 채점

An Autonomous Assessment of a Short Essay Answer by Using the BLEU

  • 조정현 (한림대학교 컴퓨터공학과) ;
  • 정현기 (한림대학교 컴퓨터공학과) ;
  • 박찬영 (한림대학교 컴퓨터공학과) ;
  • 김유섭 (한림대학교 컴퓨터공학과)
  • 발행 : 2009.02.09

초록

본 논문에서는 단기 서술형 답안의 자동 채점을 위하여 기계 번역 자동 평가에서 널리 사용되는 BLEU(BiLingual Evaluation Understudy)를 활용한 방법을 제안한다. BLEU 는 기계가 번역한 것이 사람이 번역한 것과 비슷할수록 기계번역의 질이 좋을 것이다 라는 것을 가정하여 평가한다. 즉, 특정 문장을 여러 사람이 번역한 문장을 기계가 번역한 문장과 n-gram 방식으로 비교해 점수를 매기는 것이다. 이와 비슷하게 본 연구에서는 여러 개의 정답 문장과 학생의 답안 문장을 BLEU 와 같은 방식으로 상호 비교하여 학생의 답안을 채점하였다. 실험에서는 이러한 채점 방식의 정확도를 평가하기 위하여 사람이 채점한 점수와의 상관관계를 계산하였다.

We propose a method utilizing BLEU(BiLingual Evaluation Understudy), which is widely used in automatic evaluation of machine translations, for an autonomous assessment of a short essay answer. BLEU evaluates translations with an assumption that the translation by a machine is supposed to be more accurate as it is getting to be more similar to the translation by a human. BLEU scores the translation by comparing the n-grams of translations by a machine and humans. Similarly we score students answers by comparing to multiple reference answers with BLEU. In the experiment, we compute correlation coefficient values between scores of our system and human instructors.

키워드