DOI QR코드

DOI QR Code

스트리밍 데이터에서 확률 예측치를 이용한 효과적인 개념 변화 탐지 방법

An Effective Concept Drift Detection Method on Streaming Data Using Probability Estimates

  • 김영인 (충남대학교 컴퓨터공학과) ;
  • 박정희 (충남대학교 컴퓨터공학과)
  • 투고 : 2016.03.11
  • 심사 : 2016.04.20
  • 발행 : 2016.06.15

초록

스트리밍 데이터 분석에서 개념 변화가 일어나는 시점을 정확히 탐지하는 것은 분류 모델의 성능을 유지하는 데 있어서 매우 중요한 작업이다. 오류율은 스트리밍 데이터에서 개념 변화 탐지를 위해 많이 사용되는 척도이다. 그러나 0과 1로 이루어진 이진 값만으로 예측 결과를 묘사하는 것은 분류 모델의 행동 패턴을 나타내는 유용한 정보의 손실을 초래할 수 있다. 이 논문에서는 오류율을 이용하는 대신에 확률 예측치를 사용하여 분류기의 성능 패턴을 묘사하고 급격한 변화를 탐지하는 효과적인 개념 변화 탐지 방법을 제안한다. 합성데이터와 실제 스트리밍 데이터를 이용한 실험 결과는 제안한 방법이 개념 변화 시점을 탐지하는데 뛰어난 성능을 가짐을 보여준다.

In streaming data analysis, detecting concept drift accurately is important to maintain the performance of classification model. Error rates are usually used for concept drift detection. However, by describing prediction results with only binary values of 0 or 1, useful information about a behavior pattern of a classifier can be lost. In this paper, we propose an effective concept drift detection method which describes performance pattern of a classifier by utilizing probability estimates for class prediction and detects a significant change in a classifier behavior. Experimental results on synthetic and real streaming data show the efficiency of the proposed method for detecting the occurrence of concept drift.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. J. Gama, I. Zliobaite, A. Bifet, M. Pechenizkiy and A. Bouchachia, "A survey on concept drift adaptation," ACM computer surveys, Vol. 46 No. 4, pp. 1-37, 2014.
  2. J. Gama. P. Medas, G. Castillo and P. Rpdrigues, "Learning with drift detection," Proc. of SBIA Brazilian Symposium on Artificial Intelligence, pp. 66-112, 2004.
  3. M. Baena-Garcia, J. Campo-Avilla, R. Fidalgo, A. Bifet, R. Gavalda, and R. Moales-Bueno. "Early drift detection method," Proc. of ECML PKDD 2006 Workshop on Knowledge Discovery from Data Streams, 2006.
  4. G. Ross, N. Adams, D. Tasoulis, and D. Hand, "Exponentially weighted moving average charts for detecting concept drift," Pattern recognition letters, 33(2012), pp. 191-198, 2012. https://doi.org/10.1016/j.patrec.2011.08.019
  5. D. Kifer, S. Ben-David, and J. Gehrke, "Detecting changes in data streams," Proc. of the 30th VLDB conference, pp. 180-191, 2004.
  6. T. S. Sethi, M. Kantardzic, "Don't pay for validation : Detecting drifts from unlabeled data using margin density," Procedia Computer Science, 53(2015), pp. 103-112 2015. https://doi.org/10.1016/j.procs.2015.07.284
  7. G. Hulton, L. Spencer and P. Domingos, "Mining timechanging data streams," Proc. of KDD, pp. 97-106, 2001.
  8. J. Z. Kolter and M. A. Malloof, "Dynamic weighted majority : An ensemble method for drifting concepts," Journal of Machine Learning Research, 8 (2007), pp. 2755-2790, 2007.
  9. H. Wang, W. Fan, P. Yu, and J. Han, "Mining concept-drifting data streams using ensemble classifiers," Proc. of KDD, 2003.
  10. Y. Yeh and Y. F. Wang, "A rank-one update method for least squares linear discriminant anaylsis with concept drift," Pattern recognition, 46(2013), pp. 1267-1276, 2013. https://doi.org/10.1016/j.patcog.2012.11.008
  11. S. Bach and M. Maloof. "Paired learners for concept drift," Proc. of IEEE International Conference on Data Mining, 2008.
  12. W. Navidi, Statistics for engineers and scientists, Magraw hill, New York. 2006.
  13. I. H. Witten and E. Frank, Data mining : Practical machine learning tools and techniques, Morgan Kaufmann, San Francisco, 2005.
  14. L. I. Kuncheva and C. O. Plumpton, "Adaptive learning rate for online linear discriminant classifiers," LNCS 5342 (2008), pp. 510-519. 2008.
  15. P. Tan, M. Steinbach, and V. Kumar, Introduction to Data Mining, Addison Wesley, Boston, 2006.
  16. A. Bifet, G. Holmes, R. Kirkby, B. Pfahringer, "MOA : Massive online analysis," Journal of Machine Learning Research, Vol. 11, pp. 1601-1604, 2010.
  17. A. Bifet, J. Reed, B. Pfahringer, G. Holmes and I. Zliobaite, "CD-MOA: Change Detection Framework for Massive Online Analysis," LNCS 8207, pp. 92-103, 2013.
  18. Massive Online Analysis(MOA) [Online]. Available: http://moa.cms.waikato.ac.nz/datasets/
  19. Knowledge Discovery from Ubiquitous Streams (KDUS) [Online]. Available: http://www.liaad.up.pt/kdus/products/datasets-for-concept-drift