Developing of Text Plagiarism Detection Model using Korean Corpus Data

한글 말뭉치를 이용한 한글 표절 탐색 모델 개발

  • 류창건 (부산대학교 컴퓨터공학과) ;
  • 김형준 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과)
  • Published : 2008.04.15

Abstract

Recently we witnessed a few scandals on plagiarism among academic paper and novels. Plagiarism on documents is getting worse more frequently. Although plagiarism on English had been studied so long time, we hardly find the systematic and complete studies on plagiarisms in Korean documents. Since the linguistic features of Korean are quite different from those of English, we cannot apply the English-based method to Korean documents directly. In this paper, we propose a new plagiarism detecting method for Korean, and we throughly tested our algorithm with one benchmark Korean text corpus. The proposed method is based on "k-mer" and "local alignment" which locates the region of plagiarized document pairs fast and accurately. Using a Korean corpus which contains more than 10 million words, we establish a probability model (or local alignment score (random similarity by chance). The experiment has shown that our system was quite successful to detect the plagiarized documents.

최근 들어 각종 창작물에 대한 표절 사건이 빈번하게 발생하고 있다. 특히 문서들 간의 표절은 현재 많은 이슈가 되고 있다. 영어에 관한 표절연구는 서양에서 오래전부터 이뤄져 왔지만 한글은 구조적인 어려움으로 인해 아직 많은 연구가 이뤄지지 않고 있다. 한글은 영어와 구조적인 특징이 많이 다르기 때문에 영어기반의 탐색 기법을 한글 문서에 적용하기는 어렵다. 본 논문에서는 한글의 특성에 맞는 새로운 표절 탐색 기법을 소개하고 한글 말뭉치를 이용하여 그 성능을 실험해본다. 제안된 기법은 "k-mer"와 "지역정렬" 방법을 기반으로, 문서들 간의 표절구간을 매우 빠르고 정확하게 찾아낸다. 또한 우리는 천만어절 이상의 크기를 가진 한글 말뭉치를 이용하여 표절이 일어나지 않은 일반적인 문서에서 우연히 나타나게 될 유사 확률에 관한 모형을 만들었다. 시스템을 이용하여 성능을 측정해 본 결과, 표절 문서를 매우 정확하게 찾는 것을 알 수 있었다.

Keywords

References

  1. Turnitin. http://www.turnitin.com/
  2. Donaldson, J. L., Lancaster, A., and Sposato, P. H. A plagiarism detection system. In Proceedings of the Twelfth SIGCSE Technical Symposium on Computer Science Education. 21-25, 1981
  3. CloneChecker: A Software Plagiarism Detector. http: //ropas.snu.ac.kr/n/clonechecker/
  4. Geoff Whale. Plague: Plagiarism detection using program structure. Department of Computer Science, University of New South Wales, May 1988
  5. David Gitchell and Nicholas Tran. Sim: a utility for detecting similarity in computer programs. In SIGCSE '99: The proceedings of the thirtieth SIGCSE technical symposium on Computer science education, 266-270, 1999
  6. Wise. YAP3: Improved detection of similarities in computer program and other texts. SIGCSEB: SIGCSE Bulletin, 28, 1996
  7. Ryu Chang-Keon, Kim Hyong-Jun, Park Soo- Hyun, and Cho Hwan-Gue. DEVAC(Document EVolution Analyzing Center). http://devac.cs.pusan.ac.kr: 8080/
  8. Schleimer, S., Wilkerson, D. S., and Aiken, A. Winnowing: local algorithms for document fingerprinting. In Proceedings of the 2003 ACM SIGMOD international Conference on Management of Data. 76-85. June 09-12, 2003
  9. Cameron, M., Williams, H. E., and Cannane, A. Improved Gapped Alignment in BLAST. IEEE/ ACM Trans. Comput. Biol. Bioinformatics 1, 3, 116-129. Jul. 2004 https://doi.org/10.1109/TCBB.2004.32
  10. Leslie, C. and Kuang, R. Fast String Kernels using Inexact Matching for Protein Sequences. J. Mach. Learn. Res. 5, 1435-1455. Dec. 2004
  11. 21세기 세종계획. http://www.sejong.or.kr/