DOI QR코드

DOI QR Code

An XML-Based Analysis Tool for Gene Prediction Results

XML기반의 유전자 예측결과 분석도구

  • 김진홍 (울산대학교 컴퓨터 정보통신공학부) ;
  • 변상희 (울산대학교 컴퓨터 정보통신공학부) ;
  • 이명준 (울산대학교 컴퓨터 정보통신공학부) ;
  • 박양수 (울산대학교 컴퓨터 정보통신공학부)
  • Published : 2005.10.01

Abstract

Recently, as it is considered more important to identify the function of ail unknown genes in living things, many tools for gene prediction have been developed to identify genes in the DNA sequences. Unfortunately, most of those tools use their own schemes to represent their programs results, requiring researchers to make additional efforts to understand the result generated by them So, it is desirable to provide a standardized method of representing predicted gene information, which makes it possible to automatically produce the predicted results for a given set of gene data In this paper, we describe an effective U representation for various predicted gene information, and present an XML-based analysis tool for gene predication results based on this representation. The developed system helps users of gene prediction tools to conveniently analyze the predicted results and to automatically produce the statistical results of the prediction. To show the usefulness of the tool, we applied our programs to the results generated by GenScan and GeneID, which are widely used gene prediction systems.

생명체의 주된 기능 요소인 유전자를 모두 식별하는 작업의 중요성이 증가함에 따라, 최근에 유전자 예측도구들이 활발히 개발되고 있다. 그러나 유전자 예측 프로그램들은 예측 결과를 그들 고유의 형식으로 제공하여 사용자가 그 결과를 이해하기 위해서는 상당히 많은 추가적인 노력이 필요하다. 따라서 유전자 예측결과에 대한 표준화된 표현과 유전자 데이터 집합에 대한 예측결과를 자동으로 계산하는 방법을 지원하는 것이 바람직하다. 본 논문에서는 다양한 유전자 예측 정보에 대한 효과적인 XML 표현과 이를 바탕으로 예측된 유전자 결과를 자동으로 분석하는 in 기반 분석 도구에 대하여 기술한다. 개발된 도구는 유전자 예측도구를 사용하는 사용자들이 편리하게 예측결과를 분석하고 예측결과에 대한 통계결과를 자동으로 산출할 수 있도록 지원한다. 도구의 유용성을 보여주기 위하여 널리 사용되는 유전자 예측 도구인 GenScan과 GeneID의 처리결과를 개발된 도구에 적용시켜 보았다.

Keywords

References

  1. Burge, C. and Karlin, S., 'Prediction of complete gene structures in human genomic DNA,' J Mol BioI, Vol.266, pp.78-95, 1997 https://doi.org/10.1006/jmbi.1997.0951
  2. Burge, C, 'Identification of genes in human genomic DNA,' PhD thesis, Stanford University, Stanford, CA., 1997
  3. Burge C. and Karlin, S., 'Finding the genes in genomics DNA,' Current Opinion in Structural Biology, Vol.8, pp. 346-354, 1998 https://doi.org/10.1016/S0959-440X(98)80069-9
  4. Guigo, R., Agarwal, P., Abril, J.F., Burset, M. and Fickett, J.W., 'An Assessment of Gene Prediction Accuracy in Large DNA Sequences,' Genome Research Vol.10, No.10, pp. 1631-1642, 2000 https://doi.org/10.1101/gr.122800
  5. Yergeau, F., Bray, T. and Paoli, J., Sperberg-McQueen CM, Maler E : Extensible Markup Language (XML) 1.0, 3rd Ed., W3C, 2004
  6. Dennis, B., Ilene Karsch-Mizachi, David, L., James, O., Barbara R. and David, W., 'GenBank. Nucleic Acids Research,' Vol .28, No.1, pp.15-18, 2000 https://doi.org/10.1093/nar/28.1.15
  7. Dennis, B., Ilene Karsch-Mizachi, David, L., James, O., Barbara, R. and David, W., 'GenBank. Nucleic Acids Research,' Vol.32, No. 1, pp.23-26, 2004 https://doi.org/10.1093/nar/gkh045
  8. DDBJ, EMBL and GenBank, The DDBJ/EMBL/GenBank Feature Table: Definition, Ver. 6.0, 2003
  9. GFF, GFF (General Feature Format) Specifications Document, WWW document (http//www.sanger.ac.uk/Software/formats/GFF/GFF_Spec.shtml), 2004
  10. Burset, M. and Guigo, R, 'Evaluation of gene structure prediction programs,' Genomics, Vol.35, pp.353-367, 1996 https://doi.org/10.1006/geno.1996.0298
  11. The Apache Software Foundation, Xerces : XML parsers in Java, Apache XML Project, WWW document (http:// xml.apache.org/), 2004
  12. W3C, Document Object Model(DOM) Levell Specification, Ver. 1.0, WWW document (http://www.w3.org/TR/RECDOM-Level-1/), 1998
  13. Ana, P., Pedro T., 'DECIDE - Gene Finding Evaluation Tool', WWW document (http://decide.inesc-id.pt/index.php), 2005
  14. Burset M, Guigo R, 'Evaluation of gene structure prediction programs,' Genomics, Vol.35, pp.353-367, 1996 https://doi.org/10.1006/geno.1996.0298
  15. Rogic, S., Mackworth, AK., Ouellette, FB., 'Evalution of gene-finding programs on mammalian sequences,' Genome Research, Vol.11, No.5, pp.817-832, 2001 https://doi.org/10.1101/gr.147901