DOI QR코드

DOI QR Code

Study on Classification Algorithm based on Weight of Support and Confidence Degree

지지도와 신뢰도의 가중치에 기반한 분류알고리즘에 관한 연구

  • 김근형 (제주대학교 경영정보학과)
  • Published : 2009.04.30

Abstract

Most of any existing classification algorithm in data mining area have focused on goals improving efficiency, which is to generate decision tree more rapidly by utilizing just less computing resources. In this paper, we focused on the efficiency as well as effectiveness that is able to generate more meaningful classification rules in application area, which might consist of the ontology automatic generation, business environment and so on. For this, we proposed not only novel function with the weight of support and confidence degree but also analyzed the characteristics of the weighted function in theoretical viewpoint. Furthermore, we proposed novel classification algorithm based on the weighted function and the characteristics. In the result of evaluating the proposed algorithm, we could perceive that the novel algorithm generates more classification rules with significance more rapidly.

데이터마이닝 분야에서 기존의 분류알고리즘들은 보다 적은 컴퓨팅 자원을 이용하여 보다 빨리 분류모형을 생성하고자 하는 효율성 중심의 연구가 주를 이루었다. 본 논문에서는 분류알고리즘의 효율성을 추구할 뿐 아니라 온톨로지 자동생성이나 비즈니스 환경 등 각 응용분야에 적합한 유효한 분류규칙을 보다 많이 생성 할 수 있는 효과성도 동시 에 추구하였다. 이를 위하여 지지도와 신뢰도의 가중치가 적용된 가중치 적용함수를 제안하였고 이 함수의 성질들을 이론적으로 규명하였다. 가중치 적용함수를 사용하면서 새로운 분리 기준 설정 방법을 제안하였고 또한 새로운 분류알고리즘을 제안하였다. 제안한 알고리즘의 성능평가 결과 기존의 우수한 알고리즘보다 보다 많은 유효한 분류규칙들을 보다 신속하게 생성함을 알 수 있었다.

Keywords

References

  1. 공유근, 데이터마이닝 기법들을 이용한 온톨로지 생성, 고려대 대학원 석사학위논문, 2004
  2. Victor S.Y.Lo, "The True Lift Model-A Novel Data Mining Approach to Response Modeling in Database Marketing", ACM SIGKDD Explorations Newsletter, Volume 4 Issue 2, 2002, pp.78-86 https://doi.org/10.1145/772862.772872
  3. R.Agrawal, T. Imielinski, and A.Swami, "Mining Association Rules between Sets of Items Large Databases", In Proceedings of ACM SIGMOD Conference om Management of Data, Washington D.C., May, 1993, pp.207-216
  4. R.Agrawal and R.Srikant, "Fast Algorithms for Mining Association Rules", In Proceedings of the 20th VLDB Conference, Santiago, Chile, Sept., 1994, pp.487-499
  5. Bing Liu, Wynne Hsu and Yiming ma, "Mining Association Rules with Multiple Minimum Supports", In Proceedings of ACM SIGKDD(KDD-9),1999 pp.337-341..
  6. 하단심, 황부현, "의미있는 희소 데이터를 포함한 연관규칙탐사기법", 정보과학회논문지, 2001
  7. 김근형, 황병웅, 김민철, "중요지지도를 고려한 연관규칙 탐사 알고리즘", 정보처리학회논문지 D, 제 11-D권 제 3호, 2004, pp.545-552
  8. John Shafer, Rakesh Agrawal and Manish Mehta, "SPRINT:A Scalable Parallel Classifier for Data Mining", In Proceedings of the 22nd VLDB Conference, India, 1996, pp.1-12
  9. Rajeev Rastigi, Kyuseok Shim,"PUBLIC : A Decision Tree Classifier that Integrates Building and Pruning", In Proceedings of the 24nd VLDB Conference, New York, USA, 1998, pp.404-415
  10. Johannes Gehrke, Raghu Ramakrishnan and Venkatesh ganti, "RainForest-A Framework for fast Decision Tree Construction of large Datasets", In Proceedings of the 24th VLDB Conference, NewYork, USA, 1998, pp.416-427
  11. 김은영, 핸드폰 시장에서의 시장세분화에 관한 연구, 국민대 대학원 석사논문, 2007
  12. J. R. Quinlan and R. L. Rivest. Inferring decision trees using minimum description length principle. Information and Computation, 1989
  13. Johannes Gehrke, Venkatesh Ganti and Raghu Ramakrishnan, "BOAT-Optimistic Decision Tree Construction", SIGMOD '99 Philadelphia PA, 1999, pp.169-180
  14. Minos Garofalakis, Dongjoon Hyun, Rajeev Rastogi and Kyuseok Shim,"Efficient Algorithms for Constructing Decision Trees with Constraints", ACM SIG-KDD 2000, Boston, USA, 2000, pp.335-339