A study on the comparison of descriptive variables reduction methods in decision tree induction: A case of prediction models of pension insurance in life insurance company

생명보험사의 개인연금 보험예측 사례를 통해서 본 의사결정나무 분석의 설명변수 축소에 관한 비교 연구

  • Lee, Yong-Goo (Department of Mathematics & Statistics, Chung-Ang University) ;
  • Hur, Joon (Consulting Team, SPSS Korea Data Solution Inc.)
  • 이용구 (중앙대학교 수학통계학부) ;
  • 허준 (SPSS Korea (주)데이타솔루션 컨설팅팀)
  • Published : 2009.01.31

Abstract

In the financial industry, the decision tree algorithm has been widely used for classification analysis. In this case one of the major difficulties is that there are so many explanatory variables to be considered for modeling. So we do need to find effective method for reducing the number of explanatory variables under condition that the modeling results are not affected seriously. In this research, we try to compare the various variable reducing methods and to find the best method based on the modeling accuracy for the tree algorithm. We applied the methods on the pension insurance of a insurance company for getting empirical results. As a result, we found that selecting variables by using the sensitivity analysis of neural network method is the most effective method for reducing the number of variables while keeping the accuracy.

금융 산업에서, 의사결정나무 분석은 분류분석을 위해서 널리 사용되는 분석기법이다. 그러나 금융 산업에서 실제로 의사결정나무 분석을 적용할 때, 발생하는 문제점 중 하나는 설명변수의 수가 너무 많다는 점이다. 따라서 모형의 결과에 별 영향을 미치지 않으면서 설명변수의 수를 줄이는 효과적인 방법을 연구할 필요가 있다. 본 연구에서는 의사결정 나무 분석에서 모형의 정확성에 근거한 최선의 변수 선택 방법을 구하기 위하여 다양한 변수 선택방법들을 비교 분석 하였다. 이를 위하여 본 연구에서는 한 보험회사의 연금 보험 상품 자료에 다양한 설명변수 축소방법을 적용하여, 가장 적은 수의 설명변수를 가지고 가장 높은 정확도를 제공하여 주는 설명변수 축소방법을 구하는 실증적인 연구를 시행하였다. 이러한 실험결과, 신경망의 민감도 분석을 이용하여 변수를 축소하고, 그 축소된 변수를 이용하여 의사결정나무 분석 모델을 생성하는 경우가 가장 효율적인 설명변수 축소방법임을 알 수 있었다.

Keywords

References

  1. 강부식, 박상찬 (2001). 신경망의 민감도 분석을 이용한 귀납적 학습 기법의 변수 부분 집합 선정. <한국지능정보시스템학회논문지>, 7, 51-63.
  2. 권철신, 홍순욱 (2001). 유사상관계수의 개념을 도입한 범주형 변수의 축약에 관한 연구. <산업공학>, 14, 79-83.
  3. 박성민, 박영준 (2005). 회귀분석변수선택 절차를 이용한 인터넷 네트워크 품질 특성과 고객 만족도와의 관계 실증분석. <2005 한국경영과학회/대한산업공학회 춘계공동학술대회 논문집>, 822-828.
  4. 송문섭, 윤영주 (2001). 데이터 마이닝 패키지에서 변수 선택 편의에 관한 연구. <응용통계연구>, 14, 475-486.
  5. 정석훈, 서용무 (2008). Rough Set 기법을 이용한 신용카드 연체자 분류. Entrue Journal of Information Technology,7, 141-150.
  6. 허명회, 임용빈, 이용구 (2008). 다목적 다변량 자료분석을 위한 변수선택. <응용통계연구>, 21, 141-149.
  7. 허문열, 박영석 (2005). 상호정보를 사용한 변수선택의 동적 모델링. <통계연구>, 13, 57-74.
  8. 허준, 김종우 (2007). 불균형 데이터 집합에서의 의사결정나무 추론: 종합병원의 건강 보험료 청구 심사 사례. Information Systems Review, 9, 45-65.
  9. Anand, S. S., Patrick, A. R., Hughes, J. G., and Bell, D. A. (1998). A data mining methodology for cross-sales. Knowledge-Based Systems, 10, 449-461. https://doi.org/10.1016/S0950-7051(98)00035-5
  10. Battiti, R. (1994). Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks, 5, 537-550. https://doi.org/10.1109/72.298224
  11. Brieman, L. (1996). Bagging predictors. Machine Learning, 24, 123-140.
  12. Chung, S. S., Lee, K. H. and Lee, S. S. (2005). A study on split variable selection using transformation of variables in decision trees. Journal of Korean Data & Information Science Society, 16, 195-205.
  13. Engelbrecht, A.P. and Cloete, I. (1996). A sensitivity analysis algorithm for pruning feedforward neural networks, neural networks. 1996, IEEE International Conference, 2, 1274-1278.
  14. Kang, J. (2004). A study on factors associated with the success of CRM in the insurance company. Journal of Korean Data & Information Science Society, 15, 141-172.
  15. Kass, G. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29, 119-127. https://doi.org/10.2307/2986296
  16. Krzanowski, W. J. (1987). Selection of variables to preserve multivariate data structure, using principal component. Applied Statistics, 36, 22-33. https://doi.org/10.2307/2347842
  17. Krzanowski, W. J. (1996). A stopping rule for structure-preserving variable selection. Statistics and Computing, 6, 51-56. https://doi.org/10.1007/BF00161573
  18. Loh, W. and Shih, Y. (1997). Split selection methods for classification trees. Statistica Sinica, 7, 815-840.
  19. Lu, H., Setiono, R. and Liu, H. (1996). Effective data mining using neural networks. IEEE Transactions on Knowledge and Data Engineering, 8, 957-961. https://doi.org/10.1109/69.553163
  20. Quinlan, J. R. (1993). C4.5 Programs for machine Learning, San Mateo: Morgan Kaufmann.
  21. SPSS Inc., (2007). Clementine 12.0 User’s Guide, SPSS Inc.