DOI QR코드

DOI QR Code

A Study on Calculating Over-sampling Ratio using Classification Complexity

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발

  • Lee, Do-Hyeon (Dept. of Data Science, Seoul National University of Science and Technology) ;
  • Kim, Kyoungok (Dept. of Industrial and Information Systems Engineering, Seoul National University of Science and Technology)
  • 이도현 (서울과학기술대학교 데이터사이언스학과) ;
  • 김경옥 (서울과학기술대학교 산업공학과)
  • Published : 2020.05.29

Abstract

불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

Keywords