DOI QR코드

DOI QR Code

Development of Integrated Retrieval System of the Biology Sequence Database Using Web Service

웹 서비스를 이용한 바이오 서열 정보 데이터베이스 및 통합 검색 시스템 개발

  • 이수정 (이화여자대학교 과학기술대학원 컴퓨터학과) ;
  • 용환승 (이화여자대학교 컴퓨터학과)
  • Published : 2004.08.01

Abstract

Recently, the rapid development of biotechnology brings the explosion of biological data and biological data host. Moreover, these data are highly distributed and heterogeneous, reflecting the distribution and heterogeneity of the Molecular Biology research community. As a consequence, the integration and interoperability of molecular biology databases are issue of considerable importance. But, up to now, most of the integrated systems such as link based system, data warehouse based system have many problems which are keeping the data up to date when the schema and data of the data source are changed. For this reason, the integrated system using web service technology that allow biological data to be fully exploited have been proposed. In this paper, we built the integrated system if the bio sequence information bated on the web service technology. The developed system allows users to get data with many format such as BSML, GenBank, Fasta to traverse disparate data resources. Also, it has better retrieval performance because the retrieval modules of the external database proceed in parallel.

최근, 바이오 관련 장비, 기술들이 발전함에 따라, 바이오 관린 데이터나 그것을 제공하는 호스트들이 급속하게 증가하고 있나. 또한, 이러한 데이터들은 개발 커뮤니티들의 수만큼, 분산되고 이질적인 면을 가시고 있어서, 바이오 관련 데이터베이스의 통합과 연동기능의 세공이 중요한 문제가 되고 있다. 그러나, 현재까지 진행되고 있는 많은 통합 연구 시스템의 대부분이 링크기반, 데이터웨어하우징 구축 기반으로 하고 있어서, 데이터 스키마나 데이터의 변경시, 실시간 업데이트와 같은 문제점을 보인다. 이러한 비효율적인 면을 개선시키고자, 플랫폼. 스키마의 변화에 구애 받지 않고 서비스를 가능하게 하는 웹 서비스 기술을 이용한 통합 시스템이 제안되고 있다. 본 논문에서도 이러한 흐름에 맞추어, 웹 서비스를 이용한 바이오 서열 데이터의 데이터베이스와, 통합 검색 시스템을 개발하였다 개발된 시스템은 BSML을 포함한 다양한 포맷의 데이터로 서열정보를 제공하며, 또한 외부 데이터베이스의 검색을 병렬로 처리하여, 검색 성능을 향상시키도록 하였다.

Keywords

References

  1. Stein, L., 'Intergrating Biological Databases,' Nature Reviews-Genetics, Vol.4, pp.337-345, 2003
  2. 유성준, 김용국, 박성호, 박성희, '웹 서비스 기반 바이오 정보통합 기술 동향', 데이터베이스연구회지, 제19권 제1호, 2003
  3. Frishman D, Heumann K, Lesk A, Mewes HW., Comprehensive, comprehensible, distributed and intelligent databases : current status. Bioinformatics, Vol.14, No.7, pp.551-561, Reivew, 1998 https://doi.org/10.1093/bioinformatics/14.7.551
  4. Achard, F., G. Vaysseix and E. Barillot, 'XML, Bioinformatics and Data Integration,' Bioinformatics Review, Vol.17, No.2, pp.115-125, 2001 https://doi.org/10.1093/bioinformatics/17.2.115
  5. Stein, L., 'Creating a Bioinformatics Nation,' Nature 417, pp.119-120, May, 2002 https://doi.org/10.1038/417119a
  6. 정보문화사, Professional Java Web Services
  7. Oracle9 i Application Server 웹 서비스 기술 백서, http://otn.oracle.co.kr/tech/webservices/pdf/webservice_twp.pdf
  8. Labbook, Inc., BSML DTD and Genomic XML Viewer, http://www.labbook.com
  9. GenBank : http://www.ncbi.nlm.nkh.gov/Genbank/GenbankOverview.html
  10. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL. GenBank, Nucleic Acids Res, Vol.31, No.1, pp.23-27, Jan., 2003 https://doi.org/10.1093/nar/gkg057
  11. Wilkinson MD, Links M. BioMOBY, 'an open source biological web services proposal,' Brief Bioinform, Vol.3, No.4, pp.331-341, Dec., 2002 https://doi.org/10.1093/bib/3.4.331
  12. http://www.biodas.org/, Brian King, A Web Services Description of DAS
  13. http://xml.nig.ac.jp/index.html, DDBJ Project
  14. Wang L, Riethoven JJ, Robinson A. XEMBL : distributing EMBL data in XML format. Bioinformatics, 8, pp.1147-1148, Aug., 2002 https://doi.org/10.1093/bioinformatics/18.8.1147
  15. Wang, L., P. Rodriguez-Tome, N. Redaschi, P. McNeil, A. J. Robinson and P. Lijnzaad., Accessing and distributing EMBL data using CORBA (common object request broker architecture), Genome Biology, Vol.1, No.5, Aug., 2002
  16. Entrez online documentation, http://www.ncbi.nlm.nih.gov/Database/indexhtml
  17. BioJava Tutorial, http://www.biojava.org/tutorials/index.html