압축된 써픽스 배열 구축 알고리즘의 성능 분석

Performance Analysis of Construction Algorithms for Compressed Suffix Arrays

  • 박치성 (부산대학교 컴퓨터공학과) ;
  • 조준하 (부산대학교 컴퓨터공학과) ;
  • 심정섭 (인하대학교 컴퓨터공학과) ;
  • 김동규 (한양대학교 전자통신컴퓨터공학부)
  • Park Chi-Seong (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Jo Jun-Ha (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Sim Jeong-Seop (Dept. of Computer Science & Engineering, Inha University) ;
  • Kim Dong-Kyue (Dept. of Electronics and Computer Engineering, Hanyang University)
  • 발행 : 2006.06.01

초록

써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

키워드