DOI QR코드

DOI QR Code

Comparison of Feature Selection Methods in Support Vector Machines

지지벡터기계의 변수 선택방법 비교

  • Kim, Kwangsu (Department of Statistics, University of Seoul) ;
  • Park, Changyi (Department of Statistics, University of Seoul)
  • 김광수 (서울시립대학교 통계학과) ;
  • 박창이 (서울시립대학교 통계학과)
  • Received : 2012.12.15
  • Accepted : 2013.01.16
  • Published : 2013.02.28

Abstract

Support vector machines(SVM) may perform poorly in the presence of noise variables; in addition, it is difficult to identify the importance of each variable in the resulting classifier. A feature selection can improve the interpretability and the accuracy of SVM. Most existing studies concern feature selection in the linear SVM through penalty functions yielding sparse solutions. Note that one usually adopts nonlinear kernels for the accuracy of classification in practice. Hence feature selection is still desirable for nonlinear SVMs. In this paper, we compare the performances of nonlinear feature selection methods such as component selection and smoothing operator(COSSO) and kernel iterative feature extraction(KNIFE) on simulated and real data sets.

지지벡터기계는 잡음변수가 존재하는 경우에 성능이 저하될 수 있다. 또한 최종 분류기에서 각 변수들의 중요도를 알리 어려운 단점이 있다. 따라서 변수선택은 지지벡터기계의 해석력과 정확도를 높일 수 있다. 기존의 문헌상의 대부분의 연구는 선형 지지벡터기계에서 성근 해를 주는 벌점함수를 통해 변수를 선택에 관한 것이다. 실제로는 분류의 정확도를 높이기 위해 비선형 커널을 사용하는 경우가 일반적이다. 따라서 변수선택은 비선형 지지벡터기계에서도 마찬가지로 필요하다. 본 논문에서는 모의실험 및 실제자료를 통하여 비선형 지지벡터의 대표적인 변수선택법인 COSSO(component selection and smoothing operator)와 KNIFE(kernel iterative feature extraction)의 성능을 비교한다.

Keywords

References

  1. Allen, G. I. (2011). Automatic feature selection via weighted kernels and regularization, Journal of Com- putational and Graphical Statistics, In Press.
  2. Cortes, C. and Vapnik, V. (1995). Support-vector networks, Machine Learning, 20, 273-297.
  3. Guyon, I., Weston, J., Barnhill, S. and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines, Machine Learning, 46, 389-422. https://doi.org/10.1023/A:1012487302797
  4. Lee, Y., Kim, Y., Lee, S. and Koo, J.-Y. (2006). Structured multicategory support vector machines with analysis of variance decomposition, Biometrika, 93, 555-571. https://doi.org/10.1093/biomet/93.3.555
  5. Wahba, G. (1990). Spline methods for observational data, CBMS-NSF Regional Conference Series, Philadelphia.
  6. Zhang, H. (2006). Variable selection for SVM via smoothing spline ANOVA, Statistica Sinica, 16, 659-674.
  7. Zhang, H., Ahn, J., Lin, X. and Park, C. (2006). Gene selection using support vector machines with nonconvex penalty, Bioinformatics, 22, 185-202.
  8. Zhu, J., Rosset, S., Hastie, T. and Tibshirani, R. (2003). 1-norm support vector machines, Neural Information Processing Systems, MIT Press.