베이지안 기법을 적용한 마이크로어레이 데이터 분류 알고리즘 설계와 구현

The Algorithm Design and Implement of Microarray Data Classification using the Byesian Method

  • 박수영 (조선대학교 컴퓨터통계학과) ;
  • 정채영 (조선대학교 컴퓨터통계학과)
  • 발행 : 2006.12.30

초록

최근 생명 정보학 기술의 발달로 마이크로 단위의 실험조작이 가능해짐에 따라 하나의 chip상에서 전체 genome의 expression pattern을 관찰할 수 있게 되었고, 동시에 수 만개의 유전자들 간의 상호작용도 연구 가능하게 되었다. 이처럼 DNA 마이크로어레이 기술은 복잡한 생물체를 이해하는 새로운 방향을 제시해주게 되었다. 따라서 이러한 기술을 통해 얻어진 대량의 유전자 정보들을 효과적으로 분석하는 방법이 시급하다. 본 논문에서는 실험용 데이터로 하버드대학교의 바이오인포메틱스 코어 그룹의 샘플데이터 이용하여 마이크로어레이 실험에서 다양한 원인에 의해 발생하는 잡음(noise)을 줄이거나 제거하는 과정인 표준화 과정을 거쳐 특징 추출방법인 베이지안 알고리즘 ASA(Adaptive Simulated Annealing) 방법을 이용하여 데이터를 2개의 클래스로 나누고, 정확도를 평가하는 시스템을 설계하고 구현하였다. Lowess 표준화 후 98.23%의 정확도를 보였다.

As development in technology of bioinformatics recently makes it possible to operate micro-level experiments, we can observe the expression pattern of total genome through on chip and analyze the interactions of thousands of genes at the same time. Thus, DNA microarray technology presents the new directions of understandings for complex organisms. Therefore, it is required how to analyze the enormous gene information obtained through this technology effectively. In this thesis, We used sample data of bioinformatics core group in harvard university. It designed and implemented system that evaluate accuracy after dividing in class of two using Bayesian algorithm, ASA, of feature extraction method through normalization process, reducing or removing of noise that occupy by various factor in microarray experiment. It was represented accuracy of 98.23% after Lowess normalization.

참고문헌

  1. D.J.Duggan, M.Bittner, Y.Chen, P.Meltzer, J.M.Trent, 'Expression profiling using cDNA microarray', Nature genetics supplement, Vol.21, pp.10-14, 1999 https://doi.org/10.1038/4434
  2. Jane Jijun Liu, Gene Cutler, Wuxiong Li, Zheng Pan, Sihua Peng, Tim Hoey, Liangbiao Chen and Xuefeng BruceLing, 'Multiclass cancer classification and biomaker discovery using GA-based algorithms', Bioinformatics,vol.21, no.11, pp.2691-2697, 2005 https://doi.org/10.1093/bioinformatics/bti419
  3. 원홍희, 조성배, '암 분류를 위한 기계학습 분류기의 성능평가', 한국정보처리학회 추계 학술대회, vol.09, no.02. 2002
  4. Dov Stekel, Microarray Bioinformatics, Cambridge University Press, 2003
  5. DNA chip 분석, http://www.bio.davidson,edu/courses/genomics/chip/chip.html
  6. Yang, Y.h., Dudoit, S., Luu, D.M., Peng, V., Ngai, J., and Speed, T.P., 'Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variatation, Nucleic Acides Research, vol.30, no.c15, 2002
  7. L. Ingber, 'Very Fast Simulated Re-Annealing', Mathl, Comput. Modeling, Vol. 12, pp, 967-973, 1989 https://doi.org/10.1016/0895-7177(89)90202-1