Discovering Sequence Association Rules for Protein Structure Prediction

단백질 구조 예측을 위한 서열 연관 규칙 탐사

  • 김정자 (전남대학교 대학원 전산통계학과) ;
  • 이도헌 (전남대학교 전산학과) ;
  • 백윤주 (네이버컴주식회사)
  • Published : 2001.10.01

Abstract

Bioinformatics is a discipline to support biological experiment projects by storing, managing data arising from genome research. In can also lead the experimental design for genome function prediction and regulation. Among various approaches of the genome research, the proteomics have been drawing increasing attention since it deals with the final product of genomes, i.e., proteins, directly. This paper proposes a data mining technique to predict the structural characteristics of a given protein group, one of dominant factors of the functions of them. After explains associations among amino acid subsequences in the primary structures of proteins, which can provide important clues for determining secondary or tertiary structures of them, it defines a sequence association rule to represent the inter-subsequences. It also provides support and confidence measures, newly designed to evaluate the usefulness of sequence association rules, After is proposes a method to discover useful sequence association rules from a given protein group, it evaluates the performance of the proposed method with protein sequence data from the SWISS-PROT protein database.

바이오정보학(bioinformatic)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 유전체 연구의 다양한 접근 방식 중 단백체학(proteomics)는 유전체의 최종 산물인 단백질을 직접적으로 다룬다는 측면에서 그 효용성에 대해 많은 기대를 모으고 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 구조를 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에 타나나는 부서열간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열간의 연관성을 표현하기 위한 모델로서 서열 연관 규직을 정의한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 주어진 단백질 집단으로부터 유용한 서열 연관 규칙을 발견하기 위한 기법을 제안한다. 아울러, SWISS-PROT 단백질 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 성능을 평가한다.

Keywords

References

  1. R. Hofestaedt, 'Computer science and biology,' BioSystems 43, pp.69-71, 1997
  2. Rebhan M, Chalifa-Caspi V, Prilusky J. Lancet D, 'Gene-Cards : a novel functional genomics compendium with automated data mining and query reformulation support,' Bioinformatics, 14(8), August, pp.656-664, 1998
  3. Setubal J, Meidanis J, Introduction to Computational Molecular Biology, Boston, MA : PWS Publishing Company, July, 1997
  4. Alvis Brazma, lnge Jonassen, lngvar Eidhammer, David Gilbert, Approaches to the automatic discovery of pattern biosequences, Journal of Computational Biology, November, 1997
  5. Luke Alphey, DNA SEQUENCING from experimental methods to bioinformatics, School of Biological Sciences, The University of Manchester, Manchester, UK, BIOS Scientific Publishers, 1997
  6. Steven L. Salzberg, David B Searls and Simon Kasif, Computational Methods in Molecular Biology, Elsevier Science B.V., 1998
  7. http://www.ncbi.nlm.nih.gov/BLAST/
  8. http://www.ebi.ac.uk/fasta3/
  9. http://www.sdsc.edu/MEME/meme.2.2/webs-ite/meme.html
  10. http://www.rcsb.org/pdb/
  11. http://www.ncbi.nlm.nih.gov/Structure/
  12. http://Pfam.wustl.edu
  13. C. Pabo, E. Peisach, and R. Grant, 'Design and Selection of Novel CYS2HIS2 Zinc Finger Proteins,' Annu. Rev. Biochem, 70, pp.313-340, 2001 https://doi.org/10.1146/annurev.biochem.70.1.313
  14. Brachman, R. J. and Anand T., 'The Process of Knowledge Discovery in Databases.' Advance in knowledge Discovery in Database and Data Mining. Menlo Park : AAAI/MIT Press, pp.37-57, 1996
  15. R. Agrawal, T. Imielinski and A. Swami. 'Mining Association Rules between Sets of Items in Large Database,' Proc, ACM SIGMOD, pp.207-216, 1993 https://doi.org/10.1145/170035.170072
  16. R. Agrawal and R. Srikant, 'Fast Algorithm for Mining Association Rules,' Proc, VLDB, pp.487-499, 1994
  17. Mohammed J. Zaki, 'Scalable Algorithms for Association Mining,' IEEE Transactions on Knowledge and Engineering, 12(3), May/June, 2000 https://doi.org/10.1109/69.846291