A study for improving data mining methods for continuous response variables

연속형 반응변수를 위한 데이터마이닝 방법 성능 향상 연구

  • Received : 2010.07.25
  • Accepted : 2010.09.23
  • Published : 2010.09.30

Abstract

It is known that bagging and boosting techniques improve the performance in classification problem. A number of researchers have proved the high performance of bagging and boosting through experiments for categorical response but not for continuous response. We study whether bagging and boosting improve data mining methods for continuous responses such as linear regression, decision tree, neural network through bagging and boosting. The analysis of eight real data sets prove the high performance of bagging and boosting empirically.

배깅과 부스팅의 기법은 예측력을 향상 시킨다고 알려져 있다. 이는 비교 실험을 통하여 성능이 검증 되었는데, 목표변수가 범주형인 경우에 특정 의사결정나무 알고리즘인 회귀분류나무만 주로 고려되었다. 본 논문에서는 의사결정나무 외에도 다른 데이터마이닝 방법도 고려하여 목표변수가 연속형인 경우에 배깅과 부스팅 기법의 성능 검증을 위한 비교 실험을 실시하였다. 구체적으로, 데이터마이닝 알고리즘 기법인 선형회귀, 의사결정나무, 신경망에 배깅 및 부스팅 앙상블 기법을 결합하여 8개의 데이터를 비교 분석하였다. 실험 결과로 연속형 자료에 대한 여러 데이터마이닝 알고리즘에도 배깅과 부스팅의 기법이 성능 향상에 도움이 되는 것으로 확인되었다.

Keywords

References

  1. 박희창, 조광현 (2004). 의사결정나무기법에 의한 환경조사 모형화. <한국데이터정보과학회지>, 15, 759-771
  2. 석경하, 류태욱 (2002). The efficiency of boosting on SVM. <한국데이터정보과학회지>, 13, 55-64
  3. 이상복 (2001). 데이터마이닝기법상에서 적합된 예측모형의 평가 - 4개 분류예측모형의 오분류율 및 훈련시간 비교 평가 중심으로. <한국데이터정보과학회지>, 12, 113-124
  4. 조영준, 이용구 (2004). 단층퍼셉트론 모형에서 초기치 최적화 방법에 관한 연구. <한국데이터정보과학회지>, 15, 331-337
  5. Berndt, E. (1991). The practice of economics: Classic and contemporary, reading, Mass, Addison-Wesley.
  6. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, New York, Chapman and Hall.
  7. Breiman, L. (1996). Bagging predictors. Machine Learning, 24, 123-140.
  8. Cortez, P. and Morais, A. (2007). A data mining approach to predict forest fires using meteorological data, In Neves, J.M. and Santos, M.F. and Machado J.M.. New Trends in Artificial Intelligence: Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimaraes, Portugal, 512-523.
  9. Dietterich, T. G.(2000). An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting and randomization. Machine Learning, 40, 139-158. https://doi.org/10.1023/A:1007607513941
  10. Efron, B and Tibshirani, R. J (1994). Nonparametric regression and generalized linear models, New York, Chapman and Hall.
  11. Ein-Dor, P. and Feldmesser, J. (1987). Attributes of the performance of central processing units: A relative performance prediction model. Communications of the ACM, 30, 308-317. https://doi.org/10.1145/32232.32234
  12. Freund, Y. and Schapire, R. E. (1996). Experiments with a new boosting algorithm. Machine Learning, Proceedings of the Thirteenth International Conference 148-156. Morgan Kauffman, San Francisco.
  13. Harrison, D. and Rubinfeld, D. L. (1978). Hedonic prices and the demand for clean air. Journal of Environmental Economics & Management, 5, 81-102. https://doi.org/10.1016/0095-0696(78)90006-2
  14. I-Cheng, Y. (1999). Design of high-performance concrete mixture using neural networks and nonlinear programming. Journal of Computing in Civil Engineering, 13, 36-42. https://doi.org/10.1061/(ASCE)0887-3801(1999)13:1(36)
  15. Loh, W. Y. (2002). Regression trees with unbiased variable selection and interaction detection. Statistica Sinica, 12, 361-386.
  16. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning, San Mateo, CA Morgan Kaufmann.
  17. Shestha, D. L. and Solomatine, D. P. (2004). AdaBoost.RT: A boosting algorithm for regression problems, International Joint Conference on Neural Networks, Budapest, Hungary.