DOI QR코드

DOI QR Code

Variable selection with quantile regression tree

분위수 회귀나무를 이용한 변수선택 방법 연구

  • Chang, Youngjae (Department of Information Statistics, Korea National Open University)
  • 장영재 (한국방송통신대학교 정보통계학과)
  • Received : 2016.08.22
  • Accepted : 2016.10.08
  • Published : 2016.10.31

Abstract

The quantile regression method proposed by Koenker et al. (1978) focuses on conditional quantiles given by independent variables, and analyzes the relationship between response variable and independent variables at the given quantile. Considering the linear programming used for the estimation of quantile regression coefficients, the model fitting job might be difficult when large data are introduced for analysis. Therefore, dimension reduction (or variable selection) could be a good solution for the quantile regression of large data sets. Regression tree methods are applied to a variable selection for quantile regression in this paper. Real data of Korea Baseball Organization (KBO) players are analyzed following the variable selection approach based on the regression tree. Analysis result shows that a few important variables are selected, which are also meaningful for the given quantiles of salary data of the baseball players.

Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

Keywords

References

  1. Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984). Classification and Regression Trees, CRC press.
  2. Chang, Y. (2010). The analysis of factors which affect Business Survey Index using regression trees. The Korean Journal of Applied Statistics, 23, 63-71. https://doi.org/10.5351/KJAS.2010.23.1.063
  3. Chang, Y. (2014). Multi-step quantile regression tree. Journal of Statistical Computation and Simulation, 84, 663-682. https://doi.org/10.1080/00949655.2012.721886
  4. Chang, Y. and Kim, H. (2011). Tree-Structured Nonlinear Regression. The Korean Journal of Applied Statistics, 24, 759-768. https://doi.org/10.5351/KJAS.2011.24.5.759
  5. Chaudhuri, P. and Loh, W.-Y. (2002). Nonparametric estimation of conditional quantiles using quantile regression trees. Bernoulli, 8, 561-576.
  6. Koenker, R. and Bassett, G. (1978). Regression Quantiles. Journal of Econometrica, 46, 33-50. https://doi.org/10.2307/1913643
  7. Loh (2002). Regression trees with unbiased variable selection and interaction detection. Statistica Sinica, 12, 361-386.