EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs

  • 강필성 (서울대학교 산업공학과) ;
  • 조성준 (서울대학교 산업공학과)
  • Published : 2006.05.01

Abstract

패턴인식 문제에서 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 적으면 데이터 불균형이 발생했다고 한다. Support Vector Machine(SVM)은 다른 기계 학습 알고리즘들과 마찬가지로 학습에 사용되는 데이터의 범주간 비율이 거의 비슷하다는 가정 하에서 학습을 하고 예측 결과를 도출하게 된다. 그러나 실제 문제에서는 데이터의 불균형이 발생하는 경우가 매우 빈번하며, 이러한 경우에는 모델의 성능이 매우 저하되는 문제점이 발생한다. 본 논문에서는 실제로 데이터 불균형이 SVM의 분류 결과에 어떠한 영향을 미치는지를 2차원 인공 데이터를 통하여 알아본다. 그리고 이러한 데이터 불균형을 해소하기 위하여 Under-Sampling 기반 앙상블 SVM을 제안하였다. 제안된 방법을 두 가지 인공 데이터에 적용하여 본 결과, 제안된 방법은 데이터 불균형을 해소하기 위해 사용되는 기존의 방법들에 비하여 소수 범주에 속하는 데이터의 수가 매우 적고 데이터의 불균형이 매우 심한 경우에도 높은 성능과 안정성을 갖는 효과적인 방법이라는 것이 입증되었다.

Keywords