An Efficient Suffix Trie Index Structure for Genomic Databases

유전체 데이터베이스를 위한 효율적인 접미어 트라이 인덱스 구조

  • Park, Jin-Man (Dept. of Computer Engineering, Hallym University) ;
  • Won, Jung-Im (Dept. of Computer Engineering, Hallym University) ;
  • Yoon, Jee-Hee (Dept. of Computer Engineering, Hallym University) ;
  • Park, Sang-Hyun (Dept. of Computer Science and Engineering, Pohang University of Science and Technology)
  • 박진만 (한림대학교 컴퓨터공학과) ;
  • 원정임 (한림대학교 컴퓨터공학과) ;
  • 윤지희 (한림대학교 컴퓨터공학과) ;
  • 박상현 (포항공과대학교 컴퓨터공학과)
  • Published : 2003.05.16

Abstract

DNA 시퀀스는 A, C, G, T 네 개의 문자로 구성된 매우 긴 시퀀스로 볼 수 있다. 고속으로 유사 DNA 시퀀스를 검색하기 위하여 인덱싱 기술을 이용하는 것이 일반적이다. 그러나 검색 대상의 유전체 데이터베이스는 그 크기가 매우 크며, 또한 지수 함수적으로 크기가 급속히 증가하고 있으므로, 기존의 인덱싱 기법을 그대로 적용할 경우, 실용성에 한계가 있다. 본 논문에서는 이와 같은 문제점을 해결할 수 있는 대규모 유전체 데이터베이스를 위한 효율적인 인덱싱 기법과 질의처리 기법을 제안한다. 기본 구조로서 접미어 트라이를 사용하며, 접미어 트리 인덱스 구조의 최대 단점인 인덱스 크기를 줄일 수 있는 데이터 압축 표현 방식을 제안한다. 또한 제안된 데이터 압축 표현 방식의 디스크 기반 인덱스 구성 알고리즘과 이를 활용한 부분 시퀀스 검색 알고리즘을 보이고, 그 저장 성능의 비교 평가결과를 보인다.

Keywords