Bio-Gateway System Architecture for Integrating Heterogeneous Bio-Databases

이질형 바이오 데이터베이스 통합을 위한 게이트웨이 시스템

  • 정진희 (한국생명공학연구원 국가유전체 정보센터, 목포대학교) ;
  • 정민아 (한국생명공학연구원 국가유전체 정보센터, 목포대학교)
  • Published : 2005.12.01

Abstract

The Integration of biological databases is critically important because of the interconnectedness of biological research. But it's not easy to integrate these databases for the different formats and designers in heterogeneous environments. So initial design is indispensable to integrate heterogeneous databases. In this paper, after we performed conceptual modeling on a popular nucleotide database, GenBank and a protein database, Swiss-Prot and integrated them by considering cross-reference. we also propose the integration system architecture called Bio-Gateway System, which can help users query closely linked information between two biological databases within one system differently from existing systems as well as query easily on condition that user knows fine condition for less effort.

이질적인 생물 데이터베이스의 통합은 데이터간의 연계 분석의 필요성이 높아짐에 따라 중요한 문제로 대두되고 있다. 그러나 이러한 데이터베이스들은 초기에 이질적 환경에서 각기 다른 목적에 의해 생성되므로 포맷, 설계자가 불일치하는 등 여러 가지 문제점으로 인해 통합하는데 어려움이 따른다. 그러므로 이질적인 데이터베이스의 통합을 위해서는 초기단계의 설계가 무엇보다도 중요하다. 본 논문에서는 대표적인 핵산 데이터베이스인 Genbank와 단백질 데이터베이스인 Swiss-Prot을 통합하기 위해 ER 모델을 사용하여 개념적 모델을 보인 후, 이를 합병하여 통합모델을 제시한다. 또한, 핵산-단백질 자료로 연계되는 정보를 통합 서비스할 수 있는 시스템 구조를 제안한다. 제안된 바이오 게이트웨이 시스템은 개념적 설계 단계에서 가장 원자적인 단위로 분할하여 모델링 함으로써 정교한 질의 처리가 가능하고, 사용자가 상세 조건을 알고 있을 경우에 기존의 검색시스템과 달리 여러 번의 검색 과정을 거치지 않고, 단시간에 원하는 결과를 얻을 수 있다는 장점을 지닌다.

Keywords

References

  1. Andres D.Baxevanis ' The Molecular Biology Database Collection : an online compilation of relevant database resources ' oxford university press2000
  2. Okayama, T.,Tamura, T., Gohobori,T., Ikeo, K., Miyazaki,S., Fukami-Kobayashi, K. and Sugawara,H. 'Formal design and implementation of an improved DDBJ database with a new object-oriented library.' Bioinformatics
  3. Norman W. Paton, Shakeel A. Khan, Andrew Hayes, Fouzia Moussouni, Andy Brass, Karen Eilbeck, Carole A. Goble, Simon J. Hubbard and Stephen G. Oliver ' Conceptual modeling of genomic information' Bioinformatics 2000
  4. KH Cheung, PM Nadkarni and DG Shin 'A metadata approach to query interoperation between molecular biology databases' Bioinformatics 1998
  5. Chen,P.S. ' The Entity-Relationship Model:Toward a Unified View of Data'. ACM trans. Database sys
  6. Baker,P., Brass,A., Bechhofer,S., Goble,C., Paton, N. and Stevens,R :TAMBIS-transparent access to multiple biological information sources. In proceedings of International Conference on Intelligent Systems for Molecular Biology. AAAI Press
  7. T.Etzold , A.Ulyanov, and P.Argos : SRS: Information Retrieval System for Molecular Biology Data Banks, Methods in Enzmemolog 226(1996)
  8. T.Etzold and P.Argos : SRS an indexing and retrieval tool for flat file data libraries, Appl. Biosci(1993) 49-57
  9. S.Davidson, C.Overton, V. Tannen, and L.Wong : Biokleisli : A digital library for biomedical researchers, Journal of Digital Libraries (1996)
  10. J.Hammer, H.Garcia-Molina, J.Cho, R.Aranha, and A.Crespo : Extracting Semistructured Information from the Web, Workshop on Management of Semistructured Data(1997)
  11. Chen, I. M.A.,Kosky, A., Markowitz,V. and Szeto,E. : Constructing and maintaining scientific database views in the frame work of the Object Protocol Model. In Proceedings of SSDBM. IEEE Press
  12. N.Ashish and C.Knoblock : Wrapper Generation for Semi-Structured Internet Sources, Workshop on Management of Semistructured Data(1997)
  13. A.Y.Levy, A.Rajarman, and J.J.Ordille : Querying Heterogeneous Information Sources Using Source Descriptions , Proc. Of the 22nd Conf. On Very Large Data Bases(VLDB'96