Prediction of Chronic Hepatitis Susceptibility using Single Nucleotide Polymorphism Data and Support Vector Machine

Single Nucleotide Polymorphism(SNP) 데이타와 Support Vector Machine(SVM)을 이용한 만성 간염 감수성 예측

  • 김동회 (한림대학교 컴퓨터공학) ;
  • 엄상용 (한림대학교 정보통신공학부) ;
  • 함기백 (아주대학교 의과대학 간 및 소화기 질환 연구센터) ;
  • 김진 (한림대학교 정보통신공학부)
  • Published : 2007.08.15

Abstract

In this paper, we use Support Vector Machine to predict the susceptibility of chronic hepatitis from single nucleotide polymorphism data. Our data set consists of SNP data for 328 patients based on 28 SNPs and patients classes(chronic hepatitis, healthy). We use leave-one-out cross validation method for estimation of the accuracy. The experimental results show that SVM with SNP is capable of classifying the SNP data successfully for chronic hepatitis susceptibility with accuracy value of 67.1%. The accuracy of all SNPs with health related feature(sex, age) is improved more than 7%(accuracy 74.9%). This result shows that the accuracy of predicting susceptibility can be improved with health related features. With more SNPs and other health related features, SVM prediction of SNP data is a potential tool for chronic hepatitis susceptibility.

본 논문에서는 한국인의 대표질환 중 하나인 만성 간염에 대한 질환 감수성을 예측하기 위해서 Single Nucleotide Polymorphism 데이타와 대표적인 기계학습 기술인 Support Vector Machine을 이용하였다. 실험을 위한 데이타로 만성간염 환자 173명과 정상인 155명의 SNP 데이타를 사용하였으며, 평가를 위한 방법으로는 Leave-One-Out Cross Valication을 사용하였다. 실험결과 SNP 데이터만으로는 67.1%의 예측 결과를 얻었으며 기본적인 건강요소인 나이와 성별을 특징요소로 사용함으로서 74.9%의 예측 결과를 보였다. 향후 보다 많은 SNP 데이타와 건강관련정보 그리고 생활패턴에 대한 요소들을 특징요소로 감수성 예측에 함께 사용한다면, SVM은 만성 간염 예측을 위한 보다 효과적인 도구가 될 것이다.

Keywords

References

  1. A. M. Glazier, J. H. Nadeau, and T. J. Aitman, 'Finding genes that underlie complex traits. Science,' 298(5602):2345-2349, Dec 2002 https://doi.org/10.1126/science.1076641
  2. V. N. Vapnik, 'The Nature of Statistical Learning Theory,' Springer, 1995
  3. J. Listgarten, S. Darnaraju, B. Poulin, L. Cook, J. Dufour, A. Driga, J. Mackey, A. Wishart, R. Greiner, and B. Zanke, 'Predictive models for Breast Cancer susceptibility from multiple single nucleotide polymorphism,' Clinical Cancel Research vol. 10 2725-2737, April 15, 2004 https://doi.org/10.1158/1078-0432.CCR-1115-03
  4. T. S. Furey, N. Duffy, N. Cristianina, D. Bednarski, M. Schummer, D. Haussler, 'Support vector machine classification and validation of cancer tissue samples using microarray expression data,' Bioinformatics, 6(10):906-914. 2000
  5. Y. D. Cai, X. J. Liu, X. b. Xu and G. P. Zhou, 'Support Vector Machines for predicting protein structural class,' BMC Bioinformatics 2:3 2001 https://doi.org/10.1186/1471-2105-2-3
  6. J. I. Bell, 'Single Nucleotide Polymorphism Disease Gene Mapping,' Arthritis Research, Vol.4, pp.s273-s278, 2002 https://doi.org/10.1186/ar555
  7. http://www.agcg.re.kr
  8. T. Joachims, 'Making lagre-scale SVM learning practical. In B. Schoelkopf, C. Burges, and A. Smola, editors, Advances in Kernel Methods-Support Vector Learning,' MIT Press, 1999
  9. http://svmlight.joachims.org
  10. B. Efron, 'Bootstrap Methods: Another Look at the Jackknife,' The Annals of Statistics 7, 1-26 1979 https://doi.org/10.1214/aos/1176344552