DOI QR코드

DOI QR Code

A Two Phases Plagiarism Detection System for the Newspaper Articles by using a Web Search and a Document Similarity Estimation

웹 검색과 문서 유사도를 활용한 2 단계 신문 기사 표절 탐지 시스템

  • 조정현 (한림대학교 컴퓨터공학과) ;
  • 정현기 (한림대학교 컴퓨터공학과) ;
  • 김유섭 (한림대학교 컴퓨터공학과)
  • Published : 2009.04.30

Abstract

With the increased interest on the document copyright, many of researches related to the document plagiarism have been done up to now. The plagiarism problem of newspaper articles has attracted much interest because the plagiarism cases of the articles having much commercial values in market are currently happened very often. Many researches related to the document plagiarism have been so hard to be applied to the newspaper articles because they have strong real-time characteristics. So to detect the plagiarism of the articles, many human detectors have to read every single thousands of articles published by hundreds of newspaper companies manually. In this paper, we firstly sorted out the articles with high possibility of being copied by utilizing OpenAPI modules supported by web search companies such as Naver and Daum. Then, we measured the document similarity between selected articles and the original article and made the system decide whether the article was plagiarized or not. In experiment, we used YonHap News articles as the original articles and we also made the system select the suspicious articles from all searched articles by Naver and Daum news search services.

최근 문서 저작권에 대한 관심과 중요도가 높아지고 있어 문서 표절에 관한 연구가 지속적으로 이루어지고 있다. 이러한 표절 문제는 신문기사의 경우에서도 큰 관심을 끌고 있는데, 이는 상업적 가치가 큰 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있기 때문이다. 현재까지의 문서 표절 관련 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수백 개의 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 1차적으로 선별한 다음, 선별된 기사들과 원본 기사와의 문서 유사도를 측정하여 선별된 기사들의 표절 여부를 자동으로 판정할 수 있도록 하였다. 본 연구에서는 실험을 위하여 연합뉴스에서 제공되는 기사를 원본 기사로 활용하였고, 표절 가능성이 있는 기사는 네이버 및 다음의 뉴스 서비스에서 제공되는 모든 기사 중에서 선별하도록 하였다.

Keywords

References

  1. 손정우, 박성배, 이상조, 박세영, 'Parse Tree Kernel을 이용한 소스코드 표절 검출', 한국컴퓨터종합학술대회 논문집, Vol.33, No.1(B), 2006
  2. 김영철, 황석찬, 최재영, '프로그램 유사도 평가 알고리즘', 인터넷정보학회논문지, 제6권 제1호, pp.51-64, 2005
  3. 김영철, '문서와 프로그래밍 언어의 표절 검사 기술에 관한 연구', 한국경영교육학회 학술저널, 제48집, pp.25-43, 2007
  4. Stefan Gruner, Stuart Naven, 'Tool support for plagiarism detection in text documents', Proceedings of the 2005 ACM symposium on Applied computing, DE, pp.776-781, 2005
  5. 김지수, 'OMUCS와 서열 정렬 기법을 이용한 영어 텍스트 표절 탐색 시스템의 설계 및 구현', 중앙대학교 석사학위논문, 2005
  6. 장정호, 김유섭, 장병탁, '헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정', 한국정보과학회 학술발표 논문집, 제30권 제1호(B), pp.440-442, 2003
  7. 전명재, '대용량 한글 문서를 위한 표절 검색 시스템 개발', 부산대학교 석사학위논문, 2005
  8. 류창건, 김형준, 박병준, 최혜정, 조환규, '한글 말뭉치를 이용한 한글 표절 탐색 모델 개발', 한국정보과학회 학술발표 논문집, 제34권 제2호(A), pp.58-59, 2007
  9. 천승환, 김미영, 이귀상, '유사 어절 트리와 비 색인어 기반의 문서 표절 유사도 분류 방법', 컴퓨터산업교육학회 논문지, Vol.3, No.8, pp.1039-1048, 2002
  10. 김혜숙, 박상철, 김수형, '단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정', 정보과학회논문지 : 소프트웨어 및 응용, 제31권 제12호, pp.1660-1671, 2004
  11. Van Rijsbergen, C.J., Information Retrieval, 2nd Edition, London:Butterworths, 1979

Cited by

  1. Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment vol.19B, pp.2, 2012, https://doi.org/10.3745/KIPSTB.2012.19B.2.135