DOI QR코드

DOI QR Code

Regression Trees with. Unbiased Variable Selection

변수선택 편향이 없는 회귀나무를 만들기 위한 알고리즘

  • 김진흠 (수원대학교 자연과학대학 통계정보학과) ;
  • 김민호 (수원대학교 자연과학대학 통계정보학과)
  • Published : 2004.11.01

Abstract

It has well known that an exhaustive search algorithm suggested by Breiman et. a1.(1984) has a trend to select the variable having relatively many possible splits as an splitting rule. We propose an algorithm to overcome this variable selection bias problem and then construct unbiased regression trees based on the algorithm. The proposed algorithm runs two steps of selecting a split variable and determining a split rule for binary split based on the split variable. Simulation studies were performed to compare the proposed algorithm with Breiman et a1.(1984)'s CART(Classification and Regression Tree) in terms of degree of variable selection bias, variable selection power, and MSE(Mean Squared Error). Also, we illustrate the proposed algorithm with real data sets.

본 논문에서는 Breiman 등(1984)의 전체탐색법이 갖고 있는 변수선택 편향을 극복할 수 있는 알고리즘을 제안하였다. 제안한 알고리즘은 노드의 분리 변수를 선택하는 단계와 그 선택된 변수에 대해서만 이진분리를 위한 분리점을 찾는 단계로 나뉘어져 있다. 예측변수가 연속형 일 때는 스피어만의 순위상관계수에 의한 검정을 수행하고, 범주형일 때는 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 통계적으로 가장 유의한 변수를 분리변수로 선택하였고 Breiman 등(1984)의 전체탐색법을 그 변수에만 적용하여 노드의 분리기준을 정하였다 모의실험 연구를 통해 Breiman등(19히)의 CART와 제안한 알고리즘을 변수선택 편의, 변수선택력파 평균제곱오차 측면에서 서로 비교하였다. 아울러 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

Keywords

References

  1. 송문섭, 윤영주 (2001). 데이터마이닝 패키지에서 변수선택 편의에 관한 연구, <응용통계연구>. 14, 475-486
  2. 이승천, 허문열 (2003). 혼합자료에서 독립성 검정에 의한 연관성 측정, <응용-통계연구>, 16, 151-167 https://doi.org/10.5351/KJAS.2003.16.1.151
  3. Breiman, L. (1996). Bagging predictors, Machine Learning, 24, 123-140
  4. Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. (1984). Classification and Regression Trees, Wadsworth, Belmont
  5. Eubank, R. L., Lariccia, V. N., and Rosenstein, R. B. (1987). Test statistics derived as components of Pearson's Phi-squared distance measure, Journal of the American Statistical Association, 82, 816-825 https://doi.org/10.2307/2288791
  6. Kim, G. V. and Loh, W. (2001). Classification trees with unbised multiway splits, Journal of the American Statistical Association, 96, 589-604 https://doi.org/10.1198/016214501753168271
  7. Lee, Y. M. and Song, M. S. (2002). A study on unbiased methods in constructing Classification trees, The Korean Communications in Statistics, 9, 809-824 https://doi.org/10.5351/CKSS.2002.9.3.809
  8. Loh, W. (2002). Regression trees with unbiased variable selection and interaction detection, Statistica Sinica, 12, 361-386
  9. Loh, W. and Shih, Y. (1997). Split selection methods for classification trees, Statistica Sinica, 7, 815-840
  10. Loh, W. and Vanichsetakul, N. (1988). Tree-structured classification via generalized discriminant analysis (with discussion), Journal of the American Statistical Association, 83, 715-728 https://doi.org/10.2307/2289295
  11. Randles, R. H. and Wolfe, D. A. (1979). Introduction to The Theory of Nonparametric Statistics, John Wiley and Sons, New York

Cited by

  1. Study on Measuring Geometrical Modification of Document Image in Scanning Process vol.10, pp.8, 2009, https://doi.org/10.5762/KAIS.2009.10.8.1869