A Bayesian Validation Method for Classification of Microarray Expression Data

마이크로어레이 발현 데이터 분류를 위한 베이지안 검증 기법

  • 박수영 (조선대학교 컴퓨터통계학과) ;
  • 정종필 (조선대학교 컴퓨터통계학과) ;
  • 정채영 (조선대학교 컴퓨터통계학과)
  • Published : 2006.11.30

Abstract

Since the bio-information now even exceeds the capability of human brain, the techniques of data mining and artificial intelligent are needed to deal with the information in this field. There are many researches about using DNA microarray technique which can obtain information from thousands of genes at once, for developing new methods of analyzing and predicting of diseases. Discovering the mechanisms of unknown genes by using these new method is expecting to develop the new drugs and new curing methods. In this Paper, We tested accuracy on classification of microarray in Bayesian method to compare normalization method's Performance after dividing data in two class that is a feature abstraction method through a normalization process which reduce or remove noise generating in microarray experiment by various factors. And We represented that it improve classification performance in 95.89% after Lowess normalization.

생물정보는 사람의 능력을 넘어 섰으며 데이터 마이닝과 같은 인공지능기법이 필수적으로 요구된다. 한번에 수천 개의 유전자 발현 정보를 획득할 수 있는 DNA마이크로어레이 기술은 대량의 생물정보를 가진 대표적인 신기술로 질병의 진단 및 예측에 있어 새로운 분석방법들과 연계하여 많은 연구가 진행 중이다. 이러한 새로운 기술들을 이용하여 유전자의 메 커니즘을 규명하는 것은 질병의 치료 및 신약의 개발에 많은 도움을 줄 것으로 기대 된다. 본 논문에서는 마이크로어레이 실험에서 다양한 원인에 의해 발생하는 잡음(noise)을 줄이 거나 제거하는 과정인 표준화과정을 거쳐 표준화 방법들의 성능 비교를 위해 특징 추출방법 인 베이지안(Bayesian) 방법을 이용하여 마이크로어레이 데이터의 분류 정확도를 비교 평가하여 Lowess 표준화 후 95.89%로 분류성능을 향상시킬 수 있음을 보였다.

Keywords

References

  1. M.B. Eisen and P.O.Brown,'DNA arrays for analysis of gene expression,' Methods Enzambol, vol.303, pp.179-205, 1999 https://doi.org/10.1016/S0076-6879(99)03014-1
  2. U.Alon, N.Barkai, D.A.Notterman, K.Gish, S.Ybarra, D.Mack, A.J. Levine, 'Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays,' Proc. of the Natl. Acad. of Sci. USA, vol.96, no. 12, pp.6745-6750, 1999 https://doi.org/10.1073/pnas.96.12.6745
  3. J.Derisi, V.Iyer and P.Brosn, 'Exploring the metabolic and genetic control of gene expression. on a genomic scale,' Science, vol.278, pp.680-686, 1997 https://doi.org/10.1126/science.278.5338.680
  4. D.Lashkari, J.Derisi, J.McCusker, A.Namath, C.Gentile, S.Hwang, P.Brown, and R.Davis, 'Yeast microarrays for genome wide parallel genetic and gene expression analysis,' Proc. of the Natl. Acad. of Sci. USA, vol.94, pp.13057-13062, 1997
  5. R.J. Lipshutz, S.P.A.Fodor, T.R.Gingeras and D.J.Lockhart, 'High density synthetic oligonucleotide arrays.', Nature Genetics, vol.21, pp.20-24. 1999 https://doi.org/10.1038/4447
  6. Ben-Dor, A., Bruhn, L., Friedman, N., Nachman, I., Schummer, M., and Yakhini, Z. 'Tissue classification with gene expression profiles,' Journal of Computational Biology, vol.7, no.3/4, pp.559-584, 2000 https://doi.org/10.1089/106652700750050943
  7. Y. Chen, E.R. Dougherty and M.L. Bittner, 'Ratio-Based Decision and the Quantitative Analysis of cDNA Microarray Images,' Journal of Biomedical Optics, vol. 2, no. 3,pp. 364-374, 1997 https://doi.org/10.1117/12.281504
  8. Y.H. Yang, S. Dudoit, P. Luu and T.P. Speed, 'Normalization for cDNA Microarray data,' SPIE BiOs, 2001
  9. Mangasarian, O.L., Musicant D.R., 'Lagrangian support vector machines,' Journal of machine learning Research, vol.1, pp.161-177, 2001 https://doi.org/10.1162/15324430152748218
  10. Cooper, G.P. and Herskovits, E., 'A Bayesian Method for the induction of probabilistic networks form data, 'Machine Learning, 9, pages 309-347, 1992