DOI QR코드

DOI QR Code

전유전체(Whole gerlome) 서열 분석과 가시화를 위한 워크벤치 개발

Development of Workbench for Analysis and Visualization of Whole Genome Sequence

  • 최정현 (부산대학교 대학원 전자계산학과) ;
  • 진희정 (국립보건원 유전체연구소 역학정보실 생물정보학팀) ;
  • 김철민 (부산대학교 의학과) ;
  • 장철훈 (부산대학교 의학과) ;
  • 조환규 (부산대학교 전기전자정보컴퓨터공학부 , 컴퓨터 및 정보통신연구소)
  • 발행 : 2002.09.01

초록

최근 활발한 소단위 게놈 프로젝트의 수행으로 많은 생물체의 유전체 전체 서열이 밝혀짐에 따라서 전유전체(whole genome)를 기본 단위로 하여 개별 유전자나 그에 관련된 기능 연구가 매우 활발히 이루어지고 있다. 전유전체의 염기 서열은 수백만 bp(base pairs)에서 수백억 bp(base pairs) 정도의 대용량 텍스트 데이터이기 때문에 단순한 온라인 문자 일치(on-line string matching) 알고리즘으로 분석하는 것은 매우 비효율적이다. 본 논문에서는 대용량의 유전체 서열을 분석하는데 적합한 자료 구조인 스트링 B-트리를 사용하여 유전체 서열의 분석과 가시화를 위한 워크벤치를 개발한 과정을 소개한다. 본 연구에서 개발한 시스템은 크게 질의문 부분과 가시화 부분으로 나뉘어 진다. 질의문 부분에는 유전체 서열에 특정 서열이 나타나는 부분의 위치와 횟수를 알아보거나 k번 나타나는 서열을 조사하는 것과 같은 기본적인 패턴 검색 부분과 k-mer 분석을 위한 질의어가 다양하게 준비되어 있다. 가시화 부분은 전유전체 서열과 주석(annotation)을 보여주거나, 유전체 분석을 용이하도록 여러 가시화 방법, CGR(Chaos Game Representation), k-mer graph, RWP(Random Walk Plot) 등으로 생물학자들이 쉽게 전체 구조와 특성 파악할 수 있도록 도와준다. 본 논문이 제안하는 분석 시스템은 생물체의 진화적 관계를 밝히고, 염색체 내에 아직 알려지지 않은 새로운 유전자나 기능이 밝혀지지 않은 junk DNA들의 기능 등을 연구하는데 사용할 수 있다.

As whole genome sequences of many organisms have been revealed by small-scale genome projects, the intensive research on individual genes and their functions has been performed. However on-memory algorithms are inefficient to analysis of whole genome sequences, since the size of individual whole genome is from several million base pairs to hundreds billion base pairs. In order to effectively manipulate the huge sequence data, it is necessary to use the indexed data structure for external memory. In this paper, we introduce a workbench system for analysis and visualization of whole genome sequence using string B-tree that is suitable for analysis of huge data. This system consists of two parts : analysis query part and visualization part. Query system supports various transactions such as sequence search, k-occurrence, and k-mer analysis. Visualization system helps biological scientist to easily understand whole structure and specificity by many kinds of visualization such as whole genome sequence, annotation, CGR (Chaos Game Representation), k-mer, and RWP (Random Walk Plot). One can find the relations among organisms, predict the genes in a genome, and research on the function of junk DNA using our workbench.

키워드

참고문헌

  1. J. S. Almeidal, J. A. Carric, A. Maretzek, P. A. Noble, and M. Fletcher, Analysis of genomic sequences by Chaos Game Representation, Bioinformatics, Vol.17, No.5, pp.429-437, 2001 https://doi.org/10.1093/bioinformatics/17.5.429
  2. S. Basu, A. Pam, and J. Das, 'Chaos game representation of protein,' J. Mol. Graphics Mod., Vol.15, pp.279-289, 1997 https://doi.org/10.1016/S1093-3263(97)00106-X
  3. B. E. Blaisdell, A. M. Campbell, and S. Karlin, 'Similarities and dissimilarities of phage genomes,' Proc. Natl. Acad. Sci., Vol.93, pp.5854-5859, 1996 https://doi.org/10.1073/pnas.93.12.5854
  4. C. Burge, A. M. Campbell, and S. Karlin, Over-and under-representation of short oligonucleotides in DNA sequences, Proc. Natl. Acad. Sci., Vol.89, pp.1358-1362, 1992 https://doi.org/10.1073/pnas.89.4.1358
  5. J. H. Choi and H. G. Cho, 'An analysis for whole genomic sequence using string B-tree,' The KIPS Trans., Vol.8-A, No.3, pp.253-260, 2001
  6. J. H. Choi, S. K. Lee, S. B. Lee, Y. J. Kim, H. G. Cho, and K. W. Kim, 'Analysis of genome by visualization of genomic signature,' Korean J. Genetics, Vol.24, No.1, pp., 2002
  7. A. Compell, J. Mrzek, and S. Karlin, Genome signature comparisons among prokaryote,plasmid,and mitochondrial DNA, Proc. Natl. Acad. Sci., Vol.96, pp.9184-9189, 1999 https://doi.org/10.1073/pnas.96.16.9184
  8. P. J. Deschavanne, A. Giron, J. Vilain, G. Fagot, and B. Fertil, Genomic signature : Characterization and classification of species assessed by chaos game representation of sequences, Mol. Biol. Evol., Vol.16, pp.1391-1399, 1999 https://doi.org/10.1093/oxfordjournals.molbev.a026048
  9. DNASpace, http://www.hitachi-sk.co.jp, Hitachi Co.
  10. P. Ferragina and R. Grossi, The string B-tree : A new data structure for string search in external memory and its application, Journal of ACM, Vol.46, No.2, pp.236-280, 1999 https://doi.org/10.1145/301970.301973
  11. GenoMax, http://www.informaxinc.com, InforMax Co.
  12. N. Goldman, Nucleotide, dinucleotide, and trinucleodtide frequencies explain patterns observed in chaos game respresentations of DNA sequences, Nuclear Acids Res., Vol.21, pp.2487-2491, 1993 https://doi.org/10.1093/nar/21.10.2487
  13. D. Gusfield, Algorithms on strings, trees, and sequences, Cambridge Univ. Press, 1997
  14. B. L. Hao, Fractals from genome exact solutions of a biology-inspired problem, Physica A, Vol.282, pp.225-246, 2000 https://doi.org/10.1016/S0378-4371(00)00102-3
  15. H. J. Jeffery, Chaos game representation of gene structure, Nucleic Acids Res., Vol.18, pp.2163-2170, 1990 https://doi.org/10.1093/nar/18.8.2163
  16. S. Karlin and I. Ladunga, Comparisons of eukaryotic genomic sequences, Proc. Natl. Acad. Sci., Vol.91, pp.12832-12836, 1994 https://doi.org/10.1073/pnas.91.26.12832
  17. S. Karlin and J. Mrzek, Compositional differences within and between eukaryotic genomes,' Proc. Natl. Acad. Sci., Vol.94, pp.10227-10232, 1997 https://doi.org/10.1073/pnas.94.19.10227
  18. P. M. Leong and S. Morgenthaler, Random walk and gapplots of DNA sequences, SO Comput-Applic-Biosci, Vol.22, No.5, pp.935-948, 1993
  19. M. C. MacLeod, D. A. Johnston, M. LaBate, and R. A. White, The probability of occurrence of oligomer motifs in the human genome and genomic microheterogeneity, J.Theor. Biol., Vol.181, No.4, pp.311-318, 1996 https://doi.org/10.1006/jtbi.1996.0133
  20. U. Manber and G.Myers, Suffix arrays : A new method for on-line string searches, SIAM J. on Comp., Vol.22, No.5, pp.935-948, 1993 https://doi.org/10.1137/0222058
  21. G. J. Phillips, J. Arnold, and R. Ivarie, Mono-through hexa-nucleotide composition of the Escherichia coli genome : a Markov chain analysis, Nucleic Acid Res., Vol.15, pp.2611-2626, 1987 https://doi.org/10.1093/nar/15.6.2611
  22. N. J. Robinson, P. J. Robinson, A. Gupta, A. J. Bleasby, B. A. Whitton, and A. P. Morby, Singular overrepresentation of an octameric palindrome, HIP1, in DNA from many cyanobacteria, Nucleic Acid Res., Vol.23, pp.729-735, 1995 https://doi.org/10.1093/nar/23.5.729
  23. VectorNTI, http://www.informaxinc.com, InforMax Co.