DOI QR코드

DOI QR Code

Generating Rank-Comparison Decision Rules with Variable Number of Genes for Cancer Classification

순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙의 생성

  • 윤영미 (가천의과학대학교 IT학과) ;
  • 변상재 (서울대학교 생물정보학) ;
  • 박상현 (연세대학교 컴퓨터과학과)
  • Published : 2008.12.31

Abstract

Microarray technology is extensively being used in experimental molecular biology field. Microarray experiments generate quantitative expression measurements for thousands of genes simultaneously, which is useful for the phenotype classification of many diseases. One of the two major problems in microarray data classification is that the number of genes exceeds the number of tissue samples. The other problem is that current methods generate classifiers that are accurate but difficult to interpret. Our paper addresses these two problems. We performed a direct integration of individual microarrays with same biological objectives by transforming an expression value into a rank value within a sample and generated rank-comparison decision rules with variable number of genes for cancer classification. Our classifier is an ensemble method which has k top scoring decision rules. Each rule contains a number of genes, a relationship among involved genes, and a class label. Current classifiers which are also ensemble methods consist of k top scoring decision rules. However these classifiers fix the number of genes in each rule as a pair or a triple. In this paper we generalized the number of genes involved in each rule. The number of genes in each rule is in the range of 2 to N respectively. Generalizing the number of genes increases the robustness and the reliability of the classifier for the class prediction of an independent sample. Also our classifier is readily interpretable, accurate with small number of genes, and shed a possibility of the use in a clinical setting.

마이크로어레이 기술은 최근 실험적 분자생물학 분야에서 활발히 사용되고 있는 기술이다. 마이크로어레이 데이터는 한 번의 실험으로 수 만개의 유전자에 대한 발현값을 얻을 수 있으므로, 여러 질병의 발현형질을 연구하는데 매우 유용하게 사용된다. 마이크로어레이 데이터의 문제점은 참여하는 유전자의 수에 비해 참여하는 샘플(생물조직샘플)의 수가 매우 적고, 분류분석 기법을 사용하여 얻어진 분류자의 해석이 어렵다는 점이다. 본 연구에서는 위의 문제점을 해결하고자, 샘플 내 순위를 이용하여 동일한 생물학적 목적으로 수행된 공개 마이크로어레이 데이터를 통합하고, 순위 비교를 기반으로 하는 다양한 유전자 개수로 이루어진 암 분류 결정 규칙들로 이루어진 분류자를 제안한다. 본 분류자는 k개의 규칙으로 이루어진 앙상블 방법을 기반으로 하며, 하나의 규칙은 최대N개의 유전자, 관련유전자간의 순위비교 관계식, 판별클래스로 이루어져 있다. 하나의 규칙에 참여하는 유전자의 수를 다양하게 함으로써 좀더 신뢰성 높은 분류자를 생성할 수 있다. 또한 본 분류자는 생물학적 해석이용이하며, 분류자를 구성하는 유전자를 명확히 식별할 수 있고, 총 개수가 많지 않으므로 임상환경에서의 사용가능성도 생각해 볼 수 있다.

Keywords

References

  1. 서울대학교 통계학과 생물정보통계연구실, “마이크로어레이 자료의 통계적분석,” 자유아카데미, 2005
  2. M. Banerjee, S. Mitra, and H. Banka, “Evolutionary Rough Feature Selection in Gene Expression Data,” IEEE Transactions on Systems, Man, and Cybernetics-Part C, Vol.37, pp.622-636, 2007 https://doi.org/10.1109/TSMCC.2007.897498
  3. L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone, “Classification and Regression Tree,” Champmans & Hall, 1984
  4. C. Campbell, S. Mukherjee, P. Tamayo, S. Rogers, R. Rifkin, A. Engle, T. R. Golub, J. Mesirov, “Estimating Dataset Size Requirements for Classifying DNA Microarray Data,” Journal of Computational Biology, Vol.10, pp.119- 142, 2003 https://doi.org/10.1089/106652703321825928
  5. S. Dudoit and J. Fridlyand, “Classication in microarray experiments,” Statistical Analysis of Gene Expression Microarray Data, Chapman and Hall, 2003
  6. T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Gaasenbeek, J. P. Mesirov, H. Collier, M. L. Loh, J. R. Downing, M. A. Caligiuri, “Molecular classification of Cancer: class discovery and class prediction by gene expression monitoring,” Science, Vol.286, pp.531- 537, 1999 https://doi.org/10.1126/science.286.5439.531
  7. I. Guyon, J. Weston, S. Barnhill, V. Vapnik, “Gene selection for cancer classification using support vector machines,” Machine Learning, Vol.46, pp.389-422, 2002 https://doi.org/10.1023/A:1012487302797
  8. J. Han, M. Kamber, Data Mining: Concepts and Techniques Second Edition. San Francisco :Morgan Kaufmann, 2006
  9. T. Joachims, Learning to Classify Text Using Support Vector Machines: Methods, Theory, and Algorithms. Kluwer Academic Publishers, 2003. http://svmlight.joachims.org/
  10. Y. Lai, B. Adam, R. Podolsky, J. She, “A mixture model approach to the tests of concordance and discordance between two large-scale experiments with two-sample groups,” Bioinformatics, Vol.23, pp.1243-1250, 2007 https://doi.org/10.1093/bioinformatics/btm103
  11. E. LaTulippe, J. Satagopan, A. Smith, H. Scher, P. Scardino, V. Reuter, “Comprehensive gene expression analysis of prostate Cancer reveals distinct transcriptional programs associated with metastatic disease.,” Cancer Research, Vol.62 pp.4499-4506, 2002
  12. Y. Lu, J. Han, “Cancer classification using gene expression data,” Information Systems, Vol.28, pp.243-268, 2003 https://doi.org/10.1016/S0306-4379(02)00072-8
  13. J. R. Quinlan, C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 1993
  14. D. Singh, P. G. Febbo, K. Ross, D. G. Jackson, J. Manola, C. Ladd, “Gene expression correlates of clinical prostate Cancer behavior,” Cancer Cell, Vol. 1, pp.203-209, 2002 https://doi.org/10.1016/S1535-6108(02)00030-2
  15. A. Tan, D. Naiman, L. Xu, R. Winslow, D. Geman, “Simple decision rules for classifying human Cancers from gene expression profiles,” Bioinformatics, Vol. 21, pp.3896-3904, 2005 https://doi.org/10.1093/bioinformatics/bti631
  16. J. B. Welsh, L. M. Sapinoso, A. I. Su, S. G. Kern, J. Wang-Rodriguez, C. A. Moskaluk, “Analysis of gene expression identifies candidate markers and pharmacological targets in prostate Cancer,” Cancer Research, Vol.61, pp.5974-5978, 2001
  17. E. Wit, J. McClure, Statistics for Microarrays: Design, Analysis and Inference. NJ: John Wiley & Sons Inc., 2004
  18. Y. Yoon, J. Lee, S. Park, S. Bien, H. C. Chung, S. Y. Rha, “Direct integration of microarrays for selecting informative genes and phenotype classification,” Information Sciences, Vol.178, pp.88-105, 2008 https://doi.org/10.1016/j.ins.2007.08.013
  19. http://www.affymetrix.com/index.affx