DOI QR코드

DOI QR Code

A Physical Data Design and Query Routing Technique of High Performance BLAST on E-Cluster

고성능 BLAST구현을 위한 E-Cluster 기반 데이터 분할 및 질의 라우팅 기법

  • 김태경 (충북대학교 정보산업공학과) ;
  • 조완섭 (충북대학교 경영정보학과/u-Biz BK 사업팀)
  • Published : 2009.02.28

Abstract

BLAST (Basic Local Alignment Search Tool) is a best well-known tool in a bioinformatics area. BLAST quickly compares input sequences with annotated huge sequence databases and predicts their functions. It helps biologists to make it easy to annotate newly found sequences with reduced experimental time, scope, and cost. However, as the amount of sequences is increasing remarkably with the advance of sequencing machines, performance of BLAST has been a critical issue and tried to solve it with several alternatives. In this paper, we propose a new PC-Based Cluster system (E-Cluster), a new physical data design methodology (logical partitioning technique) and a query routing technique (intra-query routing). To verify our system, we measure response time, speedup, and efficiency for various sizes of sequences in NR (Non-Redundancy) database. Experimental result shows that proposed system has better speedup and efficiency (maximum 600%) than those o( conventional approaches such as SMF machines, clusters, and grids.

BLAST는 생명정보학 분야에서 가장 많이 사용하는 도구이다. 이 도구는 입력서열을 기존 서열 데이터베이스와 신속히 비교하고 그 기능을 예측한다. 생물학자는 BLAST를 이용하여 실험의 범위, 시간과 비용을 줄일 수 있다. 하지만, 서열 데이터 양이 급격히 증가함에 따라 그 처리 시간도 같이 증가하여 성능개선 방안이 필요하다. 본 논문에서는 대용량 BLAST처리 성능 향상을 위한 PC 기반의 클러스터 인프라 (E-Cluster)를 제시하고 이 기반에서 데이터베이스 분할기법 (Logical Partitioning)과 질의 라우팅 기법(Intra-Query)을 제안한다. 제안된 시스템을 평가하기 위해 다양한 길이의 서열들과 NR 데이터베이스와 비교하여 응답시간(Response Time), 성능 향상(Speedup), 효율(Efficiency) 관점에서 평가한다. 본 실험을 통해 기존 SMP, Cluster, 그리드 기반의 BLAST 시스템보다 성능, 효율이 뛰어남을 확인하였고, 특히 제안한 시스템의 최대 효율은 600%로 매우 높았다.

Keywords

References

  1. B. DA, et. al., "GenBank," Nucleic Acids Res. this issue. 2009.
  2. GOLD database, http://www.genomesonline.org/.
  3. 남성혁, 김태경, 김경란, 조완섭, "서비스 지향 구조 기반의 EST 서열 주해 시스템," 한국컴퓨터정보학회논문지, 제 13권, 제 3호, 35-44쪽, 2008년 5월.
  4. J. Ye, et al., "BLAST: improvements for better sequence alignment," Nucleic Acids Research, Vol. 34, pp. 6-9, 2006.
  5. S. F. Altschul et al., "Gapped BLAST and PSI-BLAST: A new generation of protein database search programs," Nucleic Acids Research, Vol.25, pp. 3389-3402, 1997. https://doi.org/10.1093/nar/25.17.3389
  6. S. B. Needleman, C.D. Wunsch, "A general method applicable to the search for similarities in the amino acid sequence of two proteins," Journal of Molecular Biology, Vol.48, No.3, pp.443-53, 1970. https://doi.org/10.1016/0022-2836(70)90057-4
  7. T. F. Smith, M.S. Waterman, "Identification of Common Molecular Subsequences," Journal of Molecular Biology, Vol.147, pp. 195-197. 1981. https://doi.org/10.1016/0022-2836(81)90087-5
  8. M. K. Gardner: Wu-chun Feng, H.J. Archuleta, "Parallel Genomic Sequence-Searching on an Ad-Hoc Grid: Experiences. Lessons Learned, and Implications," The International Conference on High-Performance Computing, Networking, and Storage, 2006.
  9. G. Amdahl, "Validity of the Single Processor Approach to Achieving Large-Scale Computing Capabilities," AFIPS Conference Proceedings, Vol.30, pp. 483-485, 1967.
  10. Etherboot Project, http://www.etherboot.org.
  11. I. Foster, "The Grid: A New Infrastructure for 21st Century Science," Physics Today, Vol.55, No.2, pp. 42-47, 2002.
  12. A. Krishnan, "GridBLAST: a Globus-based high-throughput implementation of BLAST in a Grid computing framework: Research Articles," Concurrency and Computation: Practice & Experience, Vol. 17, No. 13 pp. 1607-1623. 2005. https://doi.org/10.1002/cpe.906
  13. SETI@HOME Project, http://setiathome.berkeley.edu/.
  14. H. S. Kim, H. J. Kim and D. S. Han, "Hyper-BLAST: A Parallelized BLAST on Cluster System," Lecture Note in Computer Science, Vol.265, pp.213-222, 2003.
  15. A. Darling, L. Carey, and W. Feng, "The Design, Implementation, and Evaluation of mpiBLAST," International Conference on Linux Clusters, 2003.
  16. 홍창범, 차정호, 이성훈, 신승우, 박근준, 박근용, "클러스터 환경에서의 MPI 기반 병렬 서열 유사성 검색에 관한 연구," 한국컴퓨터정보학회논문지, 제 112권, 제 6호, 69-78쪽, 2006년 12월.
  17. R. Bjornson, A. Sherman, S. Weston, N. Willard, and J. Wing, "TuroboBLAST(r): A parallel implementation of BLAST built on the TuroboHub," International Parallel and Distributed Processing Symposium, 2002.
  18. R. de Carvalho Costa and S. Lifschitz. "Database allocation strategies for parallel BLAST evaluation on clusters," Distributed and Parallel Databases, Vol. 13, No.1, 2003.