매개 변수를 이용한 의사결정나무 생성에 관한 연구

A study on decision tree creation using intervening variable

  • 조광현 (창원대학교 유아교육학과, 통계학) ;
  • 박희창 (창원대학교 통계학과)
  • Cho, Kwang-Hyun (Department of Early Childhood Education, Changwon National University) ;
  • Park, Hee-Chang (Department of Statistics, Changwon National University)
  • 투고 : 2011.05.19
  • 심사 : 2011.06.22
  • 발행 : 2011.08.01

초록

데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

참고문헌

  1. Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
  2. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Chapman & Hall/CRC, New York.
  3. Cho, K. H. and Park, H. C. (2011). Study on the multi intervening relation in association rule. Journal of the Korean Data Analysis Society, 13, 297-306.
  4. Choi, S. B. and Kang, C. W. (2011). Analysis of department homepage using web mining technique. Journal of the Korean Data Analysis Society, 13, 317-330.
  5. Hartigan, J. A. (1975). Clustering Algorithms, John Wiley & Sons, New York.
  6. Kim, M. H. and Park, H. C. (2008). Development of component association rules and macro algorithm. Journal of the Korean Data & Information Science Society, 19, 197-207.
  7. Lee, Y. S., Kim, K. K. and Kang, C. W. (2010). Development of customer lifetime value model based on TRFM for customer segmentation. Journal of the Korean Data Analysis Society, 12, 3271-3282.
  8. Lee, K. W. and Park, H. C. (2008). A study for statistical criterion in negative association rules using boolean analyzer. Journal of the Korean Data & Information Science Society, 19, 569-576.
  9. Park, H. C. and Cho, K. H. (2006a). Discovery of association rules using latent variables. Journal of the Korean Data & Information Science Society, 17, 149-160.
  10. Park, H. C. and Cho, K. H. (2006b). A study for antecedent association rules. Journal of the Korean Data & Information Science Society, 17, 1077-1083.
  11. Quinlan, J. R. (1993). C4.5 programs for machine learning, Morgan Kaufmann Publishers, San Francisco.