A study on decision tree creation using intervening variable

매개 변수를 이용한 의사결정나무 생성에 관한 연구

  • Cho, Kwang-Hyun (Department of Early Childhood Education, Changwon National University) ;
  • Park, Hee-Chang (Department of Statistics, Changwon National University)
  • 조광현 (창원대학교 유아교육학과, 통계학) ;
  • 박희창 (창원대학교 통계학과)
  • Received : 2011.05.19
  • Accepted : 2011.06.22
  • Published : 2011.08.01

Abstract

Data mining searches for interesting relationships among items in a given database. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, customer classification, etc. When create decision tree model, complicated model by standard of model creation and number of input variable is produced. Specially, there is difficulty in model creation and analysis in case of there are a lot of numbers of input variable. In this study, we study on decision tree using intervening variable. We apply to actuality data to suggest method that remove unnecessary input variable for created model and search the efficiency.

데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

Keywords

References

  1. Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
  2. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and regression trees, Chapman & Hall/CRC, New York.
  3. Cho, K. H. and Park, H. C. (2011). Study on the multi intervening relation in association rule. Journal of the Korean Data Analysis Society, 13, 297-306.
  4. Choi, S. B. and Kang, C. W. (2011). Analysis of department homepage using web mining technique. Journal of the Korean Data Analysis Society, 13, 317-330.
  5. Hartigan, J. A. (1975). Clustering Algorithms, John Wiley & Sons, New York.
  6. Kim, M. H. and Park, H. C. (2008). Development of component association rules and macro algorithm. Journal of the Korean Data & Information Science Society, 19, 197-207.
  7. Lee, Y. S., Kim, K. K. and Kang, C. W. (2010). Development of customer lifetime value model based on TRFM for customer segmentation. Journal of the Korean Data Analysis Society, 12, 3271-3282.
  8. Lee, K. W. and Park, H. C. (2008). A study for statistical criterion in negative association rules using boolean analyzer. Journal of the Korean Data & Information Science Society, 19, 569-576.
  9. Park, H. C. and Cho, K. H. (2006a). Discovery of association rules using latent variables. Journal of the Korean Data & Information Science Society, 17, 149-160.
  10. Park, H. C. and Cho, K. H. (2006b). A study for antecedent association rules. Journal of the Korean Data & Information Science Society, 17, 1077-1083.
  11. Quinlan, J. R. (1993). C4.5 programs for machine learning, Morgan Kaufmann Publishers, San Francisco.