Improvement Method of Classification Rate in ML Antivirus systems using Kaggle Datasets

캐글 데이터셋을 이용한 머신러닝 악성코드 분류시스템에서 분류정확도 향상방법

  • Kim, Kyungshin (Dept. of Mobile IT, Chungkang College of Cultural Industries)
  • 김경신 (청강문화산업대학교 모바일IT스쿨)
  • Published : 2019.07.10

Abstract

머신러닝을 이용한 악성코드 분류 시스템의 대부분이 캐글 데이터셋 10,868건을 사용하여 분류의 정확도를 측정한다. 이 데이터셋에 포함된 바이러스 바이트코드에는 미확인(undefined)필드라는 부분이 과도하게 존재한다. 캐글 데이터셋 특정 Label의 미확인필드 포함도는 75%가 넘는 경우도 존재한다. 이 경우 미확인 필드를 어떻게 처리하느냐가 시스템의 성능에 가장 큰 영향을 끼친다. 본 연구에서는 이러한 캐글 데이터셋의 미확인필드 처리방법을 제시하고 그에 따른 분류 정확도를 연구하였다. 다양한 처리방법에 대한 정확도를 측정하여 제안한 방식의 타당성을 증명하였다.

Keywords