PreSPI: Protein-Protein Interaction Prediction Service System

PreSPI: 단백질 상호작용 예측 서비스 시스템

  • 한동수 (한국정보통신대학교 공학부) ;
  • 김홍숙 (한국전자통신연구원 이동통신연구단) ;
  • 장우혁 (한국정보통신대학교 공학부) ;
  • 이성독 (한국정보통신대학교 공학부)
  • Published : 2005.12.01


With the recognition of the importance of computational approach for protein-protein interaction prediction, many techniques have been developed to computationally predict protein-protein interactions. However, few techniques are actually implemented and announced in service form for general users to readily access and use the techniques. In this paper, we design and implement a protein interaction prediction service system based on the domain combination based protein-protein interaction prediction technique, which is known to show superior accuracy to other conventional computational protein-protein interaction prediction methods. In the prediction accuracy test of the method, high sensitivity($77\%$) and specificity($95\%$) are achieved for test protein pairs containing common domains with teaming sets of proteins in a Yeast. The stability of the method is also manifested through the testing over DIP CORE, HMS-PCI, and TAP data. Performance, openness and flexibility are the major design goals and they are achieved by adopting parallel execution techniques, web Services standards, and layered architecture respectively. In this paper, several representative user interfaces of the system are also introduced with comprehensive usage guides.

계산을 통한 단백질 상호작용 예측 기법의 중요성이 제기되면서 많은 단백질 상호 작용 예측 기법이 제안되고 있다. 하지만 이러한 기법들이 일반 사용자가 손쉽게 사용할 수 있는 서비스 형태로 제공되고 있는 경우는 드물다. 본 논문에서는 현재까지 알려진 단백질 상호작용 예측 기법 중 예측 기법의 완성도가 높고 상대적으로 예측 정확도가 높은 것으로 알려진 도메인 조합 기반 단백질 상호 작용 예측 기법을 이용하여 서비스 시스템으로 설계하고 구현하였다. 효모(Yeast)의 단백질 집합에 대하여 학습한 후, 학습된 단백질 집합과 공통된 도메인을 가지지만 학습 집합에 존재하지 않는 단백질 쌍들에 예측 기법을 적용하여 매우 높은 $77\%$의 민감도(sensitivity)와 $95\%$의 특이도(specificity)를 보였다. 더불어 DIP CORE, HMS-PCI, TAP 데이타의 테스트를 통해서 이 기법의 안정성을 확인하였다. 시스템의 기능들은 핵심 기능, 부가 기능 그리고 일반 서비스 기능으로 분류하였다. 시스템 설계의 주요 목표인 성능, 개방성 그리고 확장성에 따라, 개별 서비스들은 병렬화, 웹 서비스 표준 준수 및 계층화된 구조화를 지원하도록 구현하였다. 본 논문에서는 몇 가지 대표적인 사용자 인터페이스와 상세한 사용 지침도 소개한다.


  1. M. Deng, S. Metah, F. Sun and T. Chen, Inferring Domain-Domain Interactions from Protein-Protein Interactions. Genome Research, 12, 1540-1548, 2002
  2. A. J. Enright, I. Iliopoulos, N. C. Kyrpides and C. A. Ouzounis, Protein interaction maps for complete genomes based on gene fusion events. Nature, 402, 86-90, 1999
  3. E. M. Marcotte, M. Pellegrini, H. L. Ng, D. W. Rice, T. O. Yeates and D. Eisenberg, Detecting protein function and protein-protein interactions from genome sequences. Science, 285, 751-753, 1999
  4. S. Ng, Z. Zhang and S. Tan, Integrative approach for computationally inferring protein domain interactions. Bioinformatics, 19, 923-929, 2003
  5. A. J. Enright and C. A. Ouzounis, Chapter 33: Protein-Protein Interactions-A Molecular Cloning Manual, Cold Spring Harbor Laboratory Press, Cold spring Harbor, NY, 2002
  6. J. R. Bock and D. A. Gough, Prediction of protein-protein interaction from primary structure, Bioinformatics, 17, 455-460, 2001
  7. J. Wojcik and V. Schachter, Protein-Protein interaction map inference using interacting domain profile pairs. Bioinformatics, 17 Suppl., S296-S305, 2001
  8. D. S. Han, H. S. Kim, J. M. Seo, and W. H. Jang, A Domain Combination Based Probabilistic Framework for Protein-Protein Interaction Prediction, Genome Informatics, No. 14, 250-259, 2003
  9. D. S. Han, H. S. Kim, W. H. Jang, and S. D. Lee, Domain Combination Based Protein-Protein Interaction Possibility Ranking Method, Proc. of 4th IEEE Sym. on Bioinfo. and Bioeng., 434-441, May, 2004
  10. 한동수, 서정민, 김홍숙, 장우혁, 도메인 조합 기반 단백질-단백질 상호작용 확률 예측 틀, 정보과학회논문지:컴퓨팅의 실제, Vol. 10, No. 4, 299-308, August, 2004
  11. W3C Web Services Architecture Working Group, Web Services Architecture, World Wide Web Consortium,, Feb., 2004
  12. W3C Web Services Architecture Working Group, Web Services Architecture Requirements, World Wide Web Consortium,, Feb., 2004
  13. W3C Web Services Architecture Working Group, Web Services Architecture Usage Scenarios, World Wide Web Consortium,, Feb., 2004
  14. R. Apweiler, et al., The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 29, 37-40, 2001
  15. H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov and P. E. Bourne, The Protein Data Bank. Nucleic Acids Res., 28, 235-242, 2000
  16. C.M. Deane, L. Salwinski, I. Xenarios, and D. Eisenberg, Protein Interactions: Two methods for assessment of the reliability of high throughput observations, Mol. Cell. Proteomics, 1, 349-356, 2002
  17. Y. Ho, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature, 415, 180-183, 2002
  18. A. Gavin, et al., Functional organization of the yeast proteom by systematic analysis of protein complexes, Nature., 415, 141-147, 2002
  19. Ng, S.K., Zhang, Z., Tan, S.H., and Lin, K., 'InterDom: a database of putative interacting protein domains for validating predicted protein interactions and complexes,' Nucleic Acids Research, Vol. 31, No. 1, pp. 251-254, 2003
  20. I. Xenarios, E. Fernandez, L. Salwinski, X. J. Duan, M. J. Thompson, E. M. Marcotte and D. Eisenberg, DIP: The Database of Inter acting Proteins: 2001 update. Nucleic Acids Res., 29, 239-241, 2001