DOI QR코드

DOI QR Code

Discriminator of Similar Documents Using the Syntactic-Semantic Tree Comparator

구문의미트리 비교기를 이용한 유사문서 판별기

  • 강원석 (안동대학교 정보과학교육과)
  • Received : 2015.05.06
  • Accepted : 2015.05.27
  • Published : 2015.10.28

Abstract

In information society, the need to detect document duplication and plagiarism is increasing. Many studies have progressed to meet such need, but there are limitations in increasing document duplication detection quality due to technological problem of natural language processing. Recently, some studies tried to increase the quality by applying syntatic-semantic analysis technique. But, the studies have the problem comparing syntactic-semantic trees. This paper develops a syntactic-semantic tree comparator, designs and implements a discriminator of similar documents using the comparator. To evaluate the system, we analyze the correlation between human discrimination and system discrimination with the comparator. This analysis shows that the proposed discrimination has good performance. We need to define the document type and improve the processing technique appropriate for each type.

정보사회에 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 그 필요성에 따라 많은 연구가 이루어지고 있으나 자연어 처리의 문제가 유사 문서 판별의 질 향상에 제약이 되었다. 최근 구문의미분석의 기술을 접목하여 유사문서 판별의 성능을 향상을 시도하였으나 구문의미분석의 결과인 구문의미트리를 비교하는 어려움이 있었다. 본 논문은 구문의미트리의 유사도를 계산하는 구문의미트리 비교기를 개발하고 이를 이용하여 유사문서를 판별하는 시스템을 설계, 구현한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미트리 비교기를 이용한 유사문서 판별기의 성능을 검증할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

Keywords

References

  1. 장성호, 강승식, "용어 선별기법에 의한 유사문서 판별시스템", 2003년도 정보과학회 봄학술발표논문집, 제30권 제1호, pp.534-536, 2003.
  2. 김혜숙, 박상철, 김수형, "단어가중치기반 문서간 유사도 측정에 관한 연구", 2003년 한국멀티미디어학회 춘계학술발표논문집, pp.198-201, 2003.
  3. 지혜성, 조준희, 임희석, "한국어 문장 표절 유형을 고려한 유사 문장 판별", 한국컴퓨터교육학회논문지, 제13권, 제6호, pp.79-89, 2010.
  4. 강원석, 황도삼, Jung H Kim, "구문의미분석을 이용한 유사문서판별기", 한국콘텐츠학회논문지, 제14권, 제3호, pp.40-51, 2014. https://doi.org/10.5392/JKCA.2014.14.03.040
  5. 손기락, 문승미, "계층적 군집화기법을 이용한 소스코드 표절검사", 정보교육학회논문지, 제11권, 제1호, pp.91-98, 2007.
  6. 김영철, 최재영, "구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가", 정보처리학회논문지A, 제12-A권 제2호, pp.109-116, 2005.
  7. 지정훈, 우균, 조환규, "바이트코드 분석을 이용한 자바프로그램 표절검사기법", 정보과학회 논문지 : 소프트웨어및응용, 제35권, 제7호, pp.442-451, 2008.
  8. 김연어, 이윤정, 우균, "클래스 구조 그래프 비교를 통한 프로그램 표절 검사 방법", 한국콘텐츠학회논문지, 제13권, 제11호, pp.37-47, 2013. https://doi.org/10.5392/JKCA.2013.13.11.037
  9. Daniel R. White and Mike S. Joy, "Sentence-Based Natural Language Plagiarism Detection", ACM Journal on Educational Resources in Computing, Vol.4, No.4, pp.1-20, 2004. https://doi.org/10.1145/1083310.1071621
  10. 허원지, 정용규, "문서간 유사도 측정방법의 개선에 관한 연구", 한국정보과학회 2011년 가을 학술발표논문집, 제38권 제2호(C), pp.122-124, 2011.
  11. 최성필, 정창후, 전홍우, 조현양, "시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구", 한국문헌정보학회지, 제45권, 제2호, pp.251-275, 2011. https://doi.org/10.4275/KSLIS.2011.45.2.251
  12. 천승환, 김미영, 이귀상, "유사 어절트리와 비색 인어 기반의 문서표절 유사도 분류 방법", 한국컴퓨터산업교육학회 논문지, 제3권, 제8호, pp.1039-1048, 2002.
  13. 류창건, 김형준, 조환규, "한글 말뭉치를 이용한 한글 표절 탐색 모델 개발", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제14권, 제2호, pp.231-235, 2008.
  14. 손정우, 박성배, "구조 및 의미 정보를 활용한 파스트리 커널 기반의 온톨로지 정렬 방법", 정보과학회논문지: 소프트웨어 및 응용, 제36권, 제4호, pp.329-334, 2009.
  15. 신미애, 고방원, 김영철, 정진영, "문서구조정보 기반의 유사도 측정", 2010년 한국컴퓨터정보학회 하계학술대회논문집, 제18권, 제2호, pp.499-502, 2010.
  16. 김재훈, 선충녕, 홍상욱, 이성욱, 서정연, 조정미, "KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태킹 시스템", 제11회 한글 및 한국어정보처리 학술대회논문집, pp.99-105, 1999.
  17. 강원석, 노주환, 제환주, 조대흠, 황세연, 정부천, "검색엔진을 위한 키워드 관련어 추출기의 설계 및 구현", 한국컴퓨터교육학회 2007년도 동계 학술대회 논문집, pp.241-246, 2007.
  18. 국립국어연구원, 21세기 세종계획 성과물, 2008.