DOI QR코드

DOI QR Code

Workflow for Building a Draft Genome Assembly using Public-domain Tools: Toxocara canis as a Case Study

개 회충 게놈 응용 사례에서 공개용 분석 툴을 사용한 드래프트 게놈 어셈블리 생성

  • 원정임 (한림대학교 정보전자공학연구소) ;
  • 공진화 (한림대학교 컴퓨터공학부) ;
  • 허선 (한림대학교 의과대학) ;
  • 윤지희 (한림대학교 컴퓨터공학부)
  • Received : 2014.03.19
  • Accepted : 2014.06.30
  • Published : 2014.09.15

Abstract

It has become possible for small scale laboratories to interpret large scale genomic DNA, thanks to the reduction of the sequencing cost by the development of next generation sequencing (NGS). De novo assembly is a method which creates a putative original sequence by reconstructing reads without using a reference sequence. There have been various study results on de novo assembly, however, it is still difficult to get the desired results even by using the same assembly procedures and the analysis tools which were suggested in the studies reported. This is mainly because there are no specific guidelines for the assembly procedures or know-hows for the use of such analysis tools. In this study, to resolve these problems, we introduce steps to finding whole genome of an unknown DNA via NGS technology and de novo assembly, while providing the pros and cons of the various analysis tools used in each step. We used 350Mbp of Toxocara canis DNA as an application case for the detailed explanations of each stated step. We also extend our works for prediction of protein-coding genes and their functions from the draft genome sequence by comparing its homology with reference sequences of other nematodes.

NGS 기술의 발달로 시퀀싱 비용이 급격히 하락됨에 따라 대규모 크기의 유전체 염기 서열해독을 소규모의 실험실에서 수행할 수 있게 되었다. 디노버 어셈블리는 표준 유전체가 없는 새로운 종을 시퀀싱하는 경우 리드들의 염기 서열 정보를 이용하여 재구성함으로써 원래의 전체 시퀀스를 복원하는 것이다. 최근 이와 관련된 많은 연구 결과가 보고되고 있으나, 충분한 분석 노하우와 명확한 가이드라인 등이 공개되어 있지 않기 때문에 이들 연구에서 제시하는 동일한 어셈블리 수행 과정 및 분석 툴들을 사용하더라도 만족할만한 수준의 어셈블리 결과를 얻지 못하는 경우가 발생한다. 본 연구에서는 이러한 문제점을 해결하기 위하여 NGS 기술과 디노버 어셈블리 기술을 이용하여 아직 밝혀지지 않은 생물체의 전체 DNA의 염기 서열을 밝히기 위한 일련의 과정들을 단계별로 소개하고, 각 단계에서 필요로 하는 공개용 분석 툴의 장단점을 분석하여 제시한다. 이러한 과정별 단계를 구체적으로 설명하기 위하여 본 연구에서는 350Mbp 크기의 개 회충 게놈을 응용 사례로 사용한다. 또한 디노버 어셈블리 과정을 통해 새롭게 어셈블리된 시퀀스와 다른 유사 종과의 상동성 분석을 수행하여 어셈블리된 시퀀스에서의 유전자 영역 추출과 추출된 유전자의 기능을 예측한다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. M. L. Metzker, "Sequencing technologies-the next generation," Nature Genetics Reviews, Vol. 11, pp. 31-46, 2010. https://doi.org/10.1038/nrg2626
  2. D. R. Zerbino and E. Birney, "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs," Genome Research, Vol. 18, pp. 821-829, 2008. https://doi.org/10.1101/gr.074492.107
  3. A. Tritt et al., "An integrated pipeline for denovo assembly of microbial genomes," PLos One, Vol. 7, No. 9. pp. e42304, 2012. https://doi.org/10.1371/journal.pone.0042304
  4. M. B. Scholz and C.-C. Lo, "Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis," Current Opinion in Biotechnology, Vol. 23, No. 1, pp. 9-15, 2012. https://doi.org/10.1016/j.copbio.2011.11.013
  5. J. I. Won et al., "De novo assembly of a large volume of genome using NGS data," Journal of KIISE: Databases, Vol. 40, No. 1, pp. 26-35, 2013. (in Korean)
  6. N. Cloonan et al., "Stem cell transcriptome profiling via massive-scale mRNA sequencing," Nature Methods, Vol. 5, pp. 613-619, 2008. https://doi.org/10.1038/nmeth.1223
  7. N. Nagarajan and M. Pop, "Sequence assembly demystified," Nature Reviews Genetics, Vol. 14, pp. 157-167, 2013.
  8. R. Li et al., "The sequence and de novo assembly of the giant panda genome," Nature, Vol. 463, pp. 311-317, 2010. https://doi.org/10.1038/nature08696
  9. G. Marcais and C. Kingsford, "A fast, lock-free approach for efficient parallel counting of occurrences of k-mers," Bioinformatics, Vol. 27, No. 6, pp. 764-770, 2011. https://doi.org/10.1093/bioinformatics/btr011
  10. M. Margulies et al., "Genome sequencing in micro fabricated high-density picolitre reactors," Nature, Vol. 437, pp. 376-380, 2005.
  11. E. W. Myers et al., "A whole-genome assembly of Drosophila," Science, Vol. 287, pp. 2196-2204, 2000. https://doi.org/10.1126/science.287.5461.2196
  12. T. D. Wu and S. Nacu, "Fast and SNP-tolerant detection of complex variants and splicing in short reads," Bioinformatics, Vol. 26, No. 7, pp. 873-881, 2010. https://doi.org/10.1093/bioinformatics/btq057
  13. M. Stanke and S. Waack, "Gene Prediction with a Hidden Markov Model and a new Intron Submodel," Bioinformatics, Vol. 19, pp. 215-225, 2003. https://doi.org/10.1093/bioinformatics/btg1029