Abstract
With the proliferation of Internet of Things (IoT) devices, using the Linux operating system in various architectures has increased. Also, security threats against Linux-based IoT devices are increasing, and malware variants based on existing malware are constantly appearing. In this paper, we propose a system where the binary data of a visualized Executable and Linkable Format (ELF) file is applied to Local Binary Pattern (LBP) image processing techniques and a median filter to classify malware in a Convolutional Neural Network (CNN). As a result, the original image showed the highest accuracy and F1-score at 98.77%, and reproducibility also showed the highest score at 98.55%. For the median filter, the highest precision was 99.19%, and the lowest false positive rate was 0.008%. Using the LBP technique confirmed that the overall result was lower than putting the original ELF file through the median filter. When the results of putting the original file through image processing techniques were classified by majority, it was confirmed that the accuracy, precision, F1-score, and false positive rate were better than putting the original file through the median filter. In the future, the proposed system will be used to classify malware families or add other image processing techniques to improve the accuracy of majority vote classification. Or maybe we mean "the use of Linux O/S distributions for various architectures has increased" instead? If not, please rephrase as intended.
사물인터넷(IoT) 기기의 확산으로 인해 다양한 아키텍처가 존재하는 Linux 운영체제의 활용이 증가하였다. 이에 따라 Linux 기반의 IoT 기기에 대한 보안 위협이 증가하고 있으며 기존 악성코드를 기반으로 한 변종 악성코드도 꾸준히 등장하고 있다. 본 논문에서는 시각화한 ELF(Executable and Linkable Format) 파일의 바이너리 데이터를 영상처리 기법 중 LBP(Local Binary Pattern)와 Median Filter를 적용하여 CNN(Convolutional Neural Network)모델로 악성코드를 분류하는 시스템을 제안한다. 실험 결과 원본 이미지의 경우 98.77%의 점수로 가장 높은 정확도와 F1-score를 보였으며 재현율도 98.55%의 가장 높은 점수를 보였다. Median Filter의 경우 99.19%로 가장 높은 정밀도와 0.008%의 가장 낮은 위양성률을 확인하였으며 LBP의 경우 전반적으로 원본과 Median Filter보다 낮은 결과를 보였음을 확인하였다. 원본과 영상처리기법별 분류 결과를 다수결로 분류했을 경우 원본과 Median Filter의 결과보다 정확도, 정밀도, F1-score, 위양성률이 전반적으로 좋아졌음을 확인하였다. 향후 악성코드 패밀리 분류에 활용하거나 다른 영상처리기법을 추가하여 다수결 분류의 정확도를 높이는 연구를 진행할 예정이다.