A Study on Calculating Over-sampling Ratio using Classification Complexity

Lee, Do-Hyeon;Kim, Kyoungok;

doi:10.3745/PKIPS.y2020m05a.591

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2020.05a
/
Pages.591-594
/
2020
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

A Study on Calculating Over-sampling Ratio using Classification Complexity

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발

Lee, Do-Hyeon (Dept. of Data Science, Seoul National University of Science and Technology) ;
Kim, Kyoungok (Dept. of Industrial and Information Systems Engineering, Seoul National University of Science and Technology)

이도현 (서울과학기술대학교 데이터사이언스학과) ;
김경옥 (서울과학기술대학교 산업공학과)

Published : 2020.05.29

https://doi.org/10.3745/PKIPS.y2020m05a.591 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

A Study on Calculating Over-sampling Ratio using Classification Complexity

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)