DOI QR코드

DOI QR Code

Ordinal Variable Selection in Decision Trees

의사결정나무에서 순서형 분리변수 선택에 관한 연구

  • 김현중 (연세대학교 상경대학 응용통계학과)
  • Published : 2006.03.01

Abstract

The most important component in decision tree algorithm is the rule for split variable selection. Many earlier algorithms such as CART and C4.5 use greedy search algorithm for variable selection. Recently, many methods were developed to cope with the weakness of greedy search algorithm. Most algorithms have different selection criteria depending on the type of variables: continuous or nominal. However, ordinal type variables are usually treated as continuous ones. This approach did not cause any trouble for the methods using greedy search algorithm. However, it may cause problems for the newer algorithms because they use statistical methods valid for continuous or nominal types only. In this paper, we propose a ordinal variable selection method that uses Cramer-von Mises testing procedure. We performed comparisons among CART, C4.5, QUEST, CRUISE, and the new method. It was shown that the new method has a good variable selection power for ordinal type variables.

CART로 대표되는 의사결정나무의 알고리즘에서 가장 중요한 요소는 분리변수의 선택방법이다. 대부분의 알고리즘은 변수의 형태가 연속형인지, 혹은 명목형(nominal)인지에 따라 별개의 변수선택방법을 적용한다. 하지만 변수의 형태가 순서형(ordinal)인 경우에는 그 변수를 연속형으로 취급하여 연속형 변수선택방법을 적용하는 것이 대부분이다. 이것은 CART와 같은 Greedy탐색을 이용하는 방법에는 문제점이 발생하지 않는다. 하지만 Greedy탐색의 약점을 보완하기 위해 통계이론을 이용하여 개발된 최근의 방법들에는 최선의 대처방법이 아니다. 따라서 본 연구에서는 의사결정 나무에서 분리변수를 선택하는데 있어서 비모수적 접근 방법인 Clamor-von Mises 검정을 이용한 방법을 순서형 변수에 사용하는 것을 제안하고, CART, C4.5, QUEST, CRUISE등 기존 알고리즘과 본 연구에서 제안하는 방법의 순서형 변수 선택력을 비교하였다. 모의실험의 결과, Clamor-von Mises 검정을 이용한 변수선택방법은 순서형 변수의 분류력을 기존 방법들에 비해 더 정확히 예측하는 좋은 성과를 보여주었다.

Keywords

References

  1. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and Regression Trees, Chapman & Hall, New York
  2. Burr, E. J. (1964). Small-sample distributions of the two-sample Cramer-von Mises' W2 and Watson's U2. The Annals of Mathematical Statistics, 35: 1091-1098 https://doi.org/10.1214/aoms/1177703267
  3. Fisz, M. (1960). On a result by M. Rosenblatt concerning the von Mises-Smirnov test. The Annals of Mathematical Statistics, 31: 427-429 https://doi.org/10.1214/aoms/1177705905
  4. Kass, G. V. (1975). Significance testing in automatic interaction detection (A.I.D), Journal of Applied Statistics, 24: 178-189 https://doi.org/10.2307/2346565
  5. Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data, Journal of Applied Statistics, 29: 119-127 https://doi.org/10.2307/2986296
  6. Kim, H. and Loh, W.-Y. (2001). Classification trees with unbiased multiway splits, Journal of the American Statistical Association, 96: 589-604 https://doi.org/10.1198/016214501753168271
  7. Kim, H. and Loh, W.-Y. (2003). Classification trees with bivariate linear discriminant node models. Journal of Computational and Graphical Statistics, 12: 512-530 https://doi.org/10.1198/1061860032049
  8. Liu, W. Z. and White, A. P. (1994). The importance of attribute-selection measures in decision tree induction, Machine Learning, 15: 25-41
  9. Loh, W.-Y. and Shih, Y.-S. (1997). Split selection methods for classification trees, Statistica Sinica, 7: 815-840
  10. Martin, J. K. (1997). An exact probability metric for decision tree splitting and stopping, Machine Learning, 28: 257 - 297 https://doi.org/10.1023/A:1007367629006
  11. Quinlan, J. (1993). C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo
  12. White, A. P. and Liu, W. Z. (1994). Bias in information-based measures in decision tree induction, Machine Learning, 15: 321-329