DOI QR코드

DOI QR Code

A method for comparing documents using fingerprinting and sequence alignment.

지문법과 서열정렬법을 결합한 다단계 정렬 방법의 문서 유사도 비교

  • Seo, Jongkyu (Dept. of Computer Engineering, Pusan National University) ;
  • Ock, Chang-Seok (Dept. of Computer Engineering, Pusan National University) ;
  • Cho, Hwan-Gue (Dept. of Computer Engineering, Pusan National University)
  • 서종규 (부산대학교 컴퓨터공학과) ;
  • 옥창석 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과)
  • Published : 2012.11.22

Abstract

문서유사도를 비교하는 방법은 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 방법으로, 각 방법의 장점을 얻으면서 단점을 보완하도록 고안되었다[1]. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 다단계정렬 방법에서 발생 가능한 단편화 문제를 제거하여 정확도를 향상시키는 방법에 대해 소개한다.

Keywords