The Problem of the e-value of InterPro to find additional domains in Domain Combination

InterPro의 e-value 조정을 통한 신규 도메인 발견 접근 방식의 문제점

  • Hur, Hee-Young (School of Engineering, Information and Communications University) ;
  • Han, Dong-Soo (School of Engineering, Information and Communications University)
  • 허희영 (한국정보통신대학교 공학부) ;
  • 한동수 (한국정보통신대학교 공학부)
  • Published : 2006.10.20

Abstract

도메인 기반 단백질 상호작용 예측 기법은 지난 몇 년 동안 활발히 연구되어 왔다. 도메인 기반 접근 방법 중에서도 도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법은 예측 정확도면에서 다른 기법보다 월등한 결과를 보여주고 있다. 그러나 학습 집단을 사용하는 특징 때문에 전체 도메인 정보를 이용할 수 없는 단점이 있다. 또한, 이 시스템은 도메인 정보가 부족하여 다른 기능을 하는 단백질이라도 같은 도메인 정보를 보여주기 때문에 예측 시스템의 결점을 드러내고 있다. 도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법은 InterPro 데이터베이스의 도메인 정보를 기반으로 사용한다. InterProScan은 InterPro의 여러 멤버 데이터베이스의 정보를 기반으로 Sequence 분석을 하는 소프트웨어로써 검색 후 단계에서 찾아낸 결과들을 e-value를 기반으로 여과한다. 본 논문에서는 제시된 e-value를 조정 방법을 사용함으로써 단백질 내 도메인 패턴의 다양화와 기존 도메인 정보가 없던 단백질의 도메인을 새롭게 발견할 수 있으나 접근 방식의 한계가 존재함을 확인할 수 있었다.

Keywords