DOI QR코드

DOI QR Code

Refining Rules of Decision Tree Using Extended Data Expression

확장형 데이터 표현을 이용하는 이진트리의 룰 개선

  • Jeon, Hae Sook (IT Convergence Technology Research Lab., ETRI) ;
  • Lee, Won Don (Department of Computer Science, Chungnam National University)
  • Received : 2014.04.25
  • Accepted : 2014.05.29
  • Published : 2014.06.30

Abstract

In ubiquitous environment, data are changing rapidly and new data is coming as times passes. And sometimes all of the past data will be lost if there is not sufficient space in memory. Therefore, there is a need to make rules and combine it with new data not to lose all the past data or to deal with large amounts of data. In making decision trees and extracting rules, the weight of each of rules is generally determined by the total number of the class at leaf. The computational problem of finding a minimum finite state acceptor compatible with given data is NP-hard. We assume that rules extracted are not correct and may have the loss of some information. Because of this precondition. this paper presents a new approach for refining rules. It controls their weight of rules of previous knowledge or data. In solving rule refinement, this paper tries to make a variety of rules with pruning method with majority and minority properties, control weight of each of rules and observe the change of performances. In this paper, the decision tree classifier with extended data expression having static weight is used for this proposed study. Experiments show that performances conducted with a new policy of refining rules may get better.

유비쿼터스 환경에서 데이터는 빠르게 변하고 새로운 데이터는 시간이 경과함에 따라서 출현한다. 그리고 때로, 메모리 공간이 충분하지 않다면, 모든 과거의 데이터를 잃을 수 있다. 그러므로, 과거의 모든 데이터를 잃지 않도록 또는 데이터를 처리하기 위해서 룰을 만들고 새로운 데이터와 결합하는 문제를 해결할 필요가 있다. 이진트리를 만들고 룰을 추출할 때, 각 룰의 중요도는 일반적으로 리프의 클래스의 총 개수로 정해진다. 주어진 데이터에 맞는 최소한의 유한한 상태 억셉터를 찾기 위한 계산 문제는 NP 하드 문제이다. 추출된 룰은 정확하지 않고 정보의 유실이 있다고 가정된다. 이러한 전제조건 때문에, 본 논문은 룰을 개선하기 위한 새로운 접근을 제시한다. 이것은 이전 지식 또는 데이터로 된 룰의 중요도를 제어하는 것이다. 룰 개선을 할 때, 본 논문은 다수와 소수 특성을 이용하는 푸루닝 방법을 사용하여 다양한 룰을 만들고 룰의 각각의 중요도를 제어하고 성능의 변화를 관찰한다. 본 본문에서 고정된 중요도를 갖는 확장된 데이터 표현을 갖는 이진트리 분류기가 사용되었다. 시험 결과는 룰 개선을 위한 새로운 정책을 이용해서 수행한 성능이 더 좋을 수 있음을 보여준다.

Keywords

References

  1. Mehmet Sabih Aksoy, "Pruning Decision Trees Using RULES3 Inductive Learning Algorithm", Mathematical and Computational Applications, Vol. 10, No. 1, pp. 113-120, 2005. https://doi.org/10.3390/mca10010113
  2. J.B. Larson, R.S. Michalski, "Selection of Most representative Training Examples and Incremental Generation of VL1 Hypothesis: The Underlying Methodology and the Description of Programs ESEL and AQ11", Technical Report 867, Department of Computer Science, University of Illinois, May 1978.
  3. J.R. Quinlan, "Learning Efficient Classification Procedures and Their Application to Chess End Games", Machine Learning, Palo Alto: Tioga Press, 1983.
  4. D. H. Kim, D. H. Lee, and W. D. Lee, "Classifier using extended data expression," IEEE Mountain Workshop on Adaptive and Learning Systems, Logan:UT, pp. 154-159, 2006.
  5. D. H. Kim, D. H. Seo, and W. D. Lee, "Classifier Capable of Rule Refinement", International Symposium on Computer Science and its Application, Hobart, Australia, pp. 216-221, 2008.
  6. J. M. Kong, D. H. Seo and W. D. Lee, "Rule refinement with extended data expression," IEEE Computer Society, Proceedings of the Sixth International Conference on Machine Learning and Applications (ICMLA), pp. 310-315, 2007.
  7. D. Oursten, R.J. Mooney, "Changing Rules: A Comprehensive Approach to Theory Refinement", Proceedings of the Eighth National Conference on Artificial Intelligence, Boston, MA, p.815, 1990.
  8. H. S. Jeon and W. D. Lee, "Pruning Method With Majority and Minority Properties," International Conference on Information Science & Application (ICISA), in press, 2014.
  9. J. R. Quinlan, "C4.5: Program for Machine Learning", San Mateo, Calif, Morgan Kaufmann, 1993.
  10. J. R. Quinlan, "Bagging, Boosting, and C4.5", AAAI/IAAI, vol. 1, 1996.
  11. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, "Introduction to DATA MINING", Addison Wesley, pp. 207-312, 2005.
  12. UCI Repository of Machine Learning Databases [Internet]. Available: http://www.ics.uci.edu/-ml.