Support vector machine and multifactor dimensionality reduction for detecting major gene interactions of continuous data

서포트 벡터 머신 알고리즘을 활용한 연속형 데이터의 다중인자 차원축소방법 적용

  • Received : 2010.10.08
  • Accepted : 2010.11.23
  • Published : 2010.11.30

Abstract

We have used multifactor dimensionality reduction (MDR) method to study genegene interaction effect of statistical model in general. But, MDR method could not be applied in the continuous data. In this paper, continuous-type data by the support vector machine (SVM) algorithm are proposed to the MDR method which provides an introduction to the technique. Also we apply the method on the identify major interaction effects of single nucleotide polymorphisms (SNPs) responsible for economic traits in a Korean cattle population.

인간의 질병과 가축의 특성에 영향을 주는 유전자들의 상호작용을 규명하는 방법으로 전통적인 통계방법들이 사용되었지만, 유전자와 같은 고차원의 데이터에는 적합하지 않았다. 따라서 다중인자 차원축소방법이 제안되었다. 다중인자 차원축소방법은 모형에 대한 가정이 필요하지 않는 비모수적 방법으로 이분형 자료에 적용 가능 하지만, 연속형 데이터에는 적용할 수 없는 단점이 있다. 따라서 본 연구에서는 일반화 분류 성능이 뛰어난 서포트 벡터 머신 알고리즘을 통해 연속형 자료를 가공하여 다중인자 차원축소방법에 적용하였다. 아울러 한우의 6번 염색체내 6개의 후보 단일염기다형성을 대상으로 연속형 자료인 실제 한우의 경제형질에 서포트 벡터 머신을 이용한 다중인자 차원축소방법을 적용함으로써 한우의 경제형질에 연관된 우수 유전자 상호작용의 조합을 규명하였다.

Keywords

References

  1. Cho, D. (2010). Mixed-effects LS-SVM for longitudinal data. Journal of Korean Data & Information Science Society, 21, 363-369.
  2. Cristianini, N. and Shawe-Taylor, J. (2000). An introduction to support vector machines and other kernelbased learning methods, Cambridge University Press.
  3. Efron, B. and Tibshirani, R. (1993). An introduction to the bootstrap, Chapman & Hall/CRC.
  4. Lee, H. G. (2009). Power of multifactor dimensionality reduction with dummy variable and detecting best gene interaction. M.S. Thesis, 1-53.
  5. Lee, J. Y., Kwon, J. C. and Kim, J. J. (2008). Multifactor dimensionalit reduction (MDR) analysis to detect single nucleotide polymorphisms associated with a carcass trait in a Hanwoo population. Asian-Australasian Journal of Animal Science, 6, 784-788.
  6. Lee, J. Y., Lee, J. H. and Lee, H. G. (2010). Power of expanded multifactor dimensionality reduction with CART algorithm. Journal of Korea Statistical Society, 17, 667-678. https://doi.org/10.5351/CKSS.2010.17.5.667
  7. Lee, Y. S. (2009). Study on the identification of candidate genes and their haplotypes that are associated with growth and carcass traits in the QTL region of BTA6 in a Hanwoo population, Ph. D. Thesis, 1-94.
  8. Lim, S. Y., Baek, J. S. and Kim, M. S. (2010). Video character recognition improvement by support vector machines and regularized discriminant analysis. Proceedings of Journal of Korean Data & Information Science Society May 28-29 , 2010, 1-10.
  9. Ritchie, M. D., Hahn, L. W., Roodi, N., Bailey, L. R., Dupont, W. D., Parl, F. F. and Moore, J. H. (2001). Multifactor-dimensionality reduction reveals high-order interactions among estrogen- metabolism genes in sporadic breast cancer. American Journal of Human Genetics, 69, 138-147. https://doi.org/10.1086/321276
  10. Scholkopf, B. and Smola, A. J. (2001). Learning with kernels: Support vector machines, regularization, optimiaztion, and beyond, MIT Press.
  11. Shim, J., Park, H. and Seok, K. H. (2009). Variance function estimation with LS-SVM for replicated data. Journal of Korean Data & Information Science Society, 20, 925-931.
  12. Tan, P., Steinbach, M. and Kumar V. (2006). Introduction to data mining, Addison-Wesley.
  13. Vapnik, V. (1998). Statistical learning theory, John wiley & sons, New York.