DOI QR코드

DOI QR Code

Feature Selection and Classification of Protein CDS Using n-Block substring weighted Linear Model

N-Block substring 가중 선형모형을 이용한 단백질 CDS의 특징 추출 및 분류

  • 최성용 (인하대학교 컴퓨터공학과) ;
  • 김진수 (인하대학교 컴퓨터공학과) ;
  • 한승진 (경인여자대학 정보미디어학부) ;
  • 최준혁 (김포대학 e-비지니스과) ;
  • 임기욱 (선문대학교 컴퓨터정보학부) ;
  • 이정현 (인하대학교 컴퓨터공학과)
  • Received : 2008.07.31
  • Accepted : 2009.09.10
  • Published : 2009.10.25

Abstract

It is more important to analysis of huge gemonics data in Bioinformatics. Here we present a novel datamining approach to predict structure and function using protein's primnary structure only. We propose not also to develope n-Block substring search algorithm in reducing enormous search space effectively in relation to feature selection, but to formulate weighted linear algorithm in a prediction of structure and function of a protein using primary structure. And we show efficient in protein domain characterization and classification by calculation weight value in determining domain association in each selected substring, and also reveal that more efficient results are acquired through claculated model score result in an inference about degree of association with each CDS(coding sequence) in domain.

방대한 유전 정보를 분석, 가공하는 생명정보학의 중요성은 더욱 높아지고 있다. 본 논문에서는 단백질의 1차 구조만으로 단백질의 구조와 기능을 예측하는 새로운 데이터마이닝 방법을 제안한다. 단백질 서열만으로 특징 추출시 발생할 수 있는 문제점인 방대한 탐색공간을 효과적으로 축소하기 위해 n-Block substring 탐색 알고리즘을 제안한다. 또한 선별된 각 substring의 도메인 연관도를 결정하는 가중치를 구하여 가중 선형모형을 구축함으로써 구조와 기능에 관련이 있을 것으로 예상되는 단백질 도메인의 특징을 추출하고 분류에 효과적임을 보인다. 도메인에 포함되는 각각의 CDS(coding sequence)에 대해 모형으로부터 구한 점수를 통해 해당 도메인과의 연관성의 정도를 추정하며, 분류 효율을 더욱 향상시킬 수 있음을 보인다.

Keywords

References

  1. http://www.ncbi.nlm.nih.gov/Genbank/genbankstats
  2. http://www.rcsb.org/pdb/holdings.do
  3. http://ca.expasy.org/cgi-bin/get-similar?all=domain
  4. A. Brazma, L. Jonassen, I. Eidhammer, and D. Gilbert, 'Approaches to the automatic discovery of patterns in bioseqeucnces,' Jounal of Computational Biology, no. 5, pp. 279-305, 1998 https://doi.org/10.1089/cmb.1998.5.279
  5. A. Karwath and R. D. King, 'Homology Induction: the use of machine learning to improve sequence similarity searches,' BMC Bioinformatics, vol. 3, no. 11, 2002
  6. D. Kell, and R. D. King, 'On the Optimization of Classes for the Assignment of Unidentified Reading Frames in Functional Genomics Programmes: The Need for Machine Learning,' Trends in Biotechnology, vol. 3, no. 18, pp. 93-98, 2000
  7. R. D. King, A. Karwath, A. Clare, and L. Dehapse, 'Accurate Prediction of Protein Class in the M. tuberculosis and E. coli Genomes Using Data Mining,' Yeast (Comparative and Functional Genomics), vol. 4, no. 17, pp. 283-293, 2000
  8. J. Park, S. A. Teichmann, T. Hubbard, and C. Chothia, 'Intermediate sequences increase the detection of homology between sequences,' Journal of Molecular Biology, vol. 1, no. 273 pp. 349–54, 1997
  9. T. J. P. Hubbard, A, G. Murzin, S. E. Brenner, and C. Chothia, 'SCOP: a Structural Classification of Proteins database,' Nucleic Acids Research, vol. 25, no. 1, pp. 236-239, 1997 https://doi.org/10.1093/nar/25.1.236
  10. R. D. King, H. W. Paul, A. Clare, 'Confirmation of data mining based predictions of protein function,' Bioinformatics vol. 7, no. 20, pp. 1110-1118, 2004
  11. F. S. Domingues, W. A. Koppensteiner, M. J. Sippl, 'The role of protein structure in genomics,' FEBS Letters, no. 476, pp. 98-102, 2000 https://doi.org/10.1016/S0014-5793(00)01678-1
  12. Y. Gao, K. Mathee, G. Narasimhan, X. Wang, 'Motif Detection in Protein Sequences,' In Proceedings of SPIRE, pp. 63-72, 1999