스트리밍 데이터에서 확률 예측치를 이용한 효과적인 개념 변화 탐지 방법

DOI QR코드

DOI QR Code

김영인;박정희
Kim, Young-In;Park, Cheong Hee

  • 투고 : 2016.03.11
  • 심사 : 2016.04.20
  • 발행 : 2016.06.15

초록

스트리밍 데이터 분석에서 개념 변화가 일어나는 시점을 정확히 탐지하는 것은 분류 모델의 성능을 유지하는 데 있어서 매우 중요한 작업이다. 오류율은 스트리밍 데이터에서 개념 변화 탐지를 위해 많이 사용되는 척도이다. 그러나 0과 1로 이루어진 이진 값만으로 예측 결과를 묘사하는 것은 분류 모델의 행동 패턴을 나타내는 유용한 정보의 손실을 초래할 수 있다. 이 논문에서는 오류율을 이용하는 대신에 확률 예측치를 사용하여 분류기의 성능 패턴을 묘사하고 급격한 변화를 탐지하는 효과적인 개념 변화 탐지 방법을 제안한다. 합성데이터와 실제 스트리밍 데이터를 이용한 실험 결과는 제안한 방법이 개념 변화 시점을 탐지하는데 뛰어난 성능을 가짐을 보여준다.

키워드

개념 변화 탐지;확률 예측치;스트리밍 데이터;적응적 점층 학습

참고문헌

  1. J. Gama, I. Zliobaite, A. Bifet, M. Pechenizkiy and A. Bouchachia, "A survey on concept drift adaptation," ACM computer surveys, Vol. 46 No. 4, pp. 1-37, 2014.
  2. J. Gama. P. Medas, G. Castillo and P. Rpdrigues, "Learning with drift detection," Proc. of SBIA Brazilian Symposium on Artificial Intelligence, pp. 66-112, 2004.
  3. M. Baena-Garcia, J. Campo-Avilla, R. Fidalgo, A. Bifet, R. Gavalda, and R. Moales-Bueno. "Early drift detection method," Proc. of ECML PKDD 2006 Workshop on Knowledge Discovery from Data Streams, 2006.
  4. G. Ross, N. Adams, D. Tasoulis, and D. Hand, "Exponentially weighted moving average charts for detecting concept drift," Pattern recognition letters, 33(2012), pp. 191-198, 2012. https://doi.org/10.1016/j.patrec.2011.08.019
  5. D. Kifer, S. Ben-David, and J. Gehrke, "Detecting changes in data streams," Proc. of the 30th VLDB conference, pp. 180-191, 2004.
  6. T. S. Sethi, M. Kantardzic, "Don't pay for validation : Detecting drifts from unlabeled data using margin density," Procedia Computer Science, 53(2015), pp. 103-112 2015. https://doi.org/10.1016/j.procs.2015.07.284
  7. G. Hulton, L. Spencer and P. Domingos, "Mining timechanging data streams," Proc. of KDD, pp. 97-106, 2001.
  8. J. Z. Kolter and M. A. Malloof, "Dynamic weighted majority : An ensemble method for drifting concepts," Journal of Machine Learning Research, 8 (2007), pp. 2755-2790, 2007.
  9. H. Wang, W. Fan, P. Yu, and J. Han, "Mining concept-drifting data streams using ensemble classifiers," Proc. of KDD, 2003.
  10. Y. Yeh and Y. F. Wang, "A rank-one update method for least squares linear discriminant anaylsis with concept drift," Pattern recognition, 46(2013), pp. 1267-1276, 2013. https://doi.org/10.1016/j.patcog.2012.11.008
  11. S. Bach and M. Maloof. "Paired learners for concept drift," Proc. of IEEE International Conference on Data Mining, 2008.
  12. W. Navidi, Statistics for engineers and scientists, Magraw hill, New York. 2006.
  13. I. H. Witten and E. Frank, Data mining : Practical machine learning tools and techniques, Morgan Kaufmann, San Francisco, 2005.
  14. L. I. Kuncheva and C. O. Plumpton, "Adaptive learning rate for online linear discriminant classifiers," LNCS 5342 (2008), pp. 510-519. 2008.
  15. P. Tan, M. Steinbach, and V. Kumar, Introduction to Data Mining, Addison Wesley, Boston, 2006.
  16. A. Bifet, G. Holmes, R. Kirkby, B. Pfahringer, "MOA : Massive online analysis," Journal of Machine Learning Research, Vol. 11, pp. 1601-1604, 2010.
  17. A. Bifet, J. Reed, B. Pfahringer, G. Holmes and I. Zliobaite, "CD-MOA: Change Detection Framework for Massive Online Analysis," LNCS 8207, pp. 92-103, 2013.
  18. Massive Online Analysis(MOA) [Online]. Available: http://moa.cms.waikato.ac.nz/datasets/
  19. Knowledge Discovery from Ubiquitous Streams (KDUS) [Online]. Available: http://www.liaad.up.pt/kdus/products/datasets-for-concept-drift

과제정보

연구 과제 주관 기관 : 한국연구재단