Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation

Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성

  • Park, Chi-Seong (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Jo, Jun-Ha (Dept. of Computer Science & Engineering, Pusan National University) ;
  • Kim, Dong-Kyue (Dept. of Computer Science & Engineering, Pusan National University)
  • 박치성 (부산대학교 컴퓨터공학과) ;
  • 조준하 (부산대학교 컴퓨터공학과) ;
  • 김동규 (부산대학교 컴퓨터공학과)
  • Published : 2005.11.01

Abstract

대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.

Keywords