DOI QR코드

DOI QR Code

A Study on Improving the Accuracy of Medical Images Classification Using Data Augmentation

  • Cheon-Ho Park (Graduate School of IT Policy and Management, Soongsil University) ;
  • Min-Guan Kim (Graduate School of IT Policy and Management, Soongsil University) ;
  • Seung-Zoon Lee (Graduate School of IT Policy and Management, Soongsil University) ;
  • Jeongil Choi (School of Business Administration, Soongsil University)
  • 투고 : 2023.11.13
  • 심사 : 2023.12.04
  • 발행 : 2023.12.30

초록

본 연구는 합성곱 신경망 모델에서 이미지 데이터 증강을 통하여 대장암 진단 모델의 정확도를 개선하고자 하였다. 이미지 데이터 증강은 기초 이미지 조작 방법을 이용하여 뒤집기, 회전, 이동, 밀림, 주밍을 사용하였다. 본 연구에서는 실험설계를 위해 보유하고 있는 5000개의 이미지 데이터에 대해 훈련 데이터와 평가 데이터로 각각 4000개와 1000개로 나누었으며, 훈련 데이터 4000개에 대해 이미지 데이터 증강 기법으로 4000개와 8000개의 이미지를 추가하여 모델을 학습시켰다. 평가 결과는 훈련 데이터 4000개, 8000개, 12000개에 대한 분류 정확도가 각각 85.1%, 87.0%, 90.2%로 나왔으며 이미지 데이터 증강에 따른 개선 효과를 확인하였다.

This paper attempted to improve the accuracy of the colorectal cancer diagnosis model using image data augmentation in convolutional neural network. Image data augmentation was performed by flipping, rotation, translation, shearing and zooming with basic image manipulation method. This study split 4000 training data and 1000 test data for 5000 image data held, the model is learned by adding 4000 and 8000 images by image data augmentation technique to 4000 training data. The evaluation results showed that the clasification accuracy for 4000, 8000, and 12,000 training data were 85.1%, 87.0%, and 90.2%, respectively, and the improvement effect depending on the increase of image data was confirmed.

키워드

I. Introduction

현재 우리는 인생 100세 시대를 맞이하고 있으며, 이는 건강관리에 대한 중요성을 더욱 부각시키고 있다. 사람들은 단순히 오래 살기를 원하는 것이 아니라, 그 과정에서 건강하고 활동적인 삶을 유지하기를 바라며, 이러한 기대치는 의료 서비스의 질 향상과 더불어 질병의 조기 발견 및 치료에 대한 요구로 이어지고 있다.

통계청 자료에 따르면, 2022년 3대 사망원인은 암, 심장질환, 코로나19였으며 암 사망률은 폐암, 간암, 대장암, 췌장암, 위암 순으로 나온다[1]. 암은 전 세계적으로 주요 사망 원인 중 하나로 꼽히며, 그 중에서도 대장암은 상당히 높은 사망률을 기록하고 있다. 암의 치명성이 크게 나타나는 이유 중 하나는 늦게 발견되었을 때에 생존율이 급격히 감소한다는 점이다. 따라서 암의 조기 발견과 정확한 진단은 환자의 생존율 향상에 결정적인 역할을 한다.

대장암 세포를 진단하는 기준은 선 형태(Gland Shape)와 핵 크기(Nucleus Size)이다[2]. 현재까지 대장암의 정확한 진단은 복잡하고 시간 소모적인 과정으로 여겨져 왔는데, 주로 현미경 이미지 데이터를 병리학자가 일일이 검토해야 하는 과정이기 때문이다. 이런 문제점들을 해결하기 위해 인공지능(Artificial Intelligence) 기반의 자동화된 진단 도구 개발에 관심이 커지고 있는 상황이다.

딥러닝(Deep Learning) 방법론 중 하나인 합성곱 신경망(Convolutional Neural Network)이 의료 영상 분석에서 뛰어난 성능을 보여주고 있으며 인공지능 기반의 의료 진단 도구 개발에 대한 연구가 활발해짐에 따라, 합성곱 신경망 모델에 이미지 데이터 증강(Image Data Augmentation) 기법을 적용하여 데이터 부족으로 인한 과대적합(Overfitting)의 위험을 방지하면서 의료 영상 분류의 정확도를 개선하는 연구가 점점 더 중요해지고 있다.

본 연구는 합성곱 신경망 모델에서 이미지 데이터 증강 기법을 사용하여 대장암 진단 모델의 정확도를 개선하고자 하며, 인공지능 기반 의료진단 도구 개발에 중요한 인사이트(Insight)를 제공함으로써 의료 서비스의 개선과 환자들의 삶의 질 향상에 기여하고자 한다. 또한, 합성곱 신경망과 이미지 데이터 증강이 대장암 진단에 어떻게 효과적으로 활용될 수 있는지에 대한 새로운 시사점을 제공한다.

2장에서는 합성곱 신경망, 이미지 데이터 증강과 대장암의 인공지능 기반 의료진단 모델과 관련된 연구들에 대해 소개하고, 3장에서는 본 연구에서 제안하는 모델에 대해 자세하게 기술하며, 4장에서는 모델에 대한 평가 실험과 그 결과에 대해 서술한다. 마지막으로 5장에서는 본 연구의 결론을 도출한다.

II. Related Works

1. Convolutional Neural Network (CNN)

합성곱 신경망은 의료 진단, 자율 주행, 안면 인식 등 다양한 분야에서 이미지의 객체를 분류하기 위해 널리 사용되는 모델이다[3-6]. 합성곱 신경망은 동물의 시각 처리과정을 모방하여 이미지 데이터의 처리에 적합한 구조로 만들어진 모델로, 1990년대에 LeCun이 Gradient-based Learning Algorithm을 성공적으로 적용함으로써 현실 문제에 다양하게 사용되고 있다[7-8].

합성곱 신경망은 기존의 심층 신경망에 합성곱 연산이 합쳐진 기술로 이미지 처리에 강력한 성능을 보이는 알고리즘이다. 합성곱 신경망은 Fig. 1과 같이 사용자의 목적에 따라 합성곱 계층(Convolutional Layer), 풀링 계층(Pooling Layer)을 반복 배치하고 마지막에 완전연결 계층(Fully-connected Layer)을 배치해 분류작업을 수행한다[9].

CPTSCQ_2023_v28n12_167_f0001.png 이미지

Fig. 1. Structure of convolutional neural network

합성곱 계층에서 각각의 필터(Filter)들이 입력 이미지에 합성곱이 되면서 여러 가지 특징(Feature) 값들이 추출되고 풀링 계층에서는 생성된 특징 맵(Feature Map)을 서브 샘플링한다. 서브 샘플링을 하는 방법에는 가장 큰 값을 남기는 최대값 풀링(Max Pooling), 평균값을 남기는 평균값 풀링(Average Pooling), 가장 작은 값을 남기는 최소값 풀링(Min Pooling) 등이 있다.

실제적인 분류는 완전연결 계층에서 이루어지며 이미지 인식의 결과를 출력한다. 가장 마지막 계층은 분류하고자 하는 클래스의 수와 같은 출력을 가지며 예측되는 클래스가 가장 높은 값을 가지게 된다[10].

2. Image Data Augmentation (IDA)

데이터 증강이란 원본 데이터셋(Dataset)을 기반으로 새로운 데이터를 만드는 기법을 말한다. 학습 데이터가 부족한 상태에서 기계 학습 알고리즘을 사용하여 학습을 진행하는 경우 과대적합에 빠져 좋은 성능을 보이지 못할 수 있기 때문에 모델을 성공적으로 학습시키기 위해서는 많은 양의 데이터셋을 확보하는 것이 중요하다.

이미지 데이터를 올바르게 분류하는 모델의 성능을 높이기 위해서는 최대한 다양하고 많은 이미지를 수집하여 충분한 데이터셋을 구축해야 한다. 하지만, 데이터셋을 늘리기 위해서는 비용, 시간 등이 급격하게 늘어나기 때문에 효과적인 이미지 데이터 증강 기법이 필요하다. Fig. 2와 같이 확보된 이미지 데이터에 기초 이미지 조작(Basic Image Manipulations) 방법, 딥러닝 접근(Deep Learning Approaches) 방법, 메타 러닝(Meta Learning) 방법 등을 통하여 데이터를 증강한다.

CPTSCQ_2023_v28n12_167_f0002.png 이미지

Fig. 2. A taxonomy of image data augmentations[11]

기초 이미지 조작 방법은 기존 이미지에 뒤집기(Flipping), 자르기(Cropping), 회전(Rotation) 등의 기법을 활용해 이미지의 기하학적 특성을 변형시키거나 밝기 조정, 색 채널 분리 등으로 데이터를 증강하고, 딥러닝 접근 방법은 인공신경망을 적용해 기존 이미지 자체를 변형하여 새로운 이미지를 생성하는 것으로 생성적 적대 신경망(Generative Adversarial Network)과 같은 모델을 활용하여 데이터를 증강하며, 메타 러닝은 신경망으로 신경망을 최적화하는 메타 학습을 적용한 것으로 데이터 증강에 사용되는 최적의 하이퍼파라미터를 학습의 과정을 통하여 도출하여 데이터를 증강한다[12].

각각의 방법은 이미지 데이터의 특성에 따라서 작동 효율이 다르며 이와 같은 이유로 사용자가 분석하고자 하는 데이터셋의 특징에 따라 이미지 데이터 증강 방법을 선택해야 한다[13]. 본 연구에서는 암세포의 존재를 확인하기 위해 현미경으로 대장의 생체 검사 조직(Biopsy Tissue)을 촬영한 이미지의 기하학적 특성 변형을 통해 이미지 데이터를 증강한다.

3. Multi-class Texture Analysis in Colorectal Cancer

Sengar et al.의 연구에서는 조직학적 이미지를 기반으로 대장암을 등급화하는 방법을 제안했으며 통계 및 그레이 레벨 런 길이(Gray-Level Run Length) 행렬을 추출하고 Support Vector Machine(SVM) 분류기에 전달하여 양성, 양성 선종, 중간 분화 악성 및 저분화 악성으로 분류하는 방법을 기반으로 하며 전체 정확도는 81%이다[14].

Kather et al.의 연구에서는 저차(Lower-order) 및 고차(Higher-order) 히스토그램 특성을 갖는 많은 특징을 사용하며, 이러한 특징은 4개의 분류기 Nearest Neighbor, Linear SVM, RBF SVM 및 앙상블 의사결정 나무에 전달되어 대장암 조직 이미지 8개 클래스로 분류하는데, 정확도는 87.4%이다[15].

Sarwinda et al.의 연구에서는 ResNet 아키텍처를 사용하여 대장암의 검출 및 분류를 위한 딥러닝 방법을 제안했고, 양성 대장암과 악성 대장암을 구별하기 위해 대장샘이미지에 대해 ResNet-18 및 ResNet-50으로 훈련시켜 정확도 80% 이상, 민감도 87% 이상, 특이도 83% 이상의 값을 보여준다[16].

Rachapudi et al.의 연구에서는 합성곱, 드롭아웃(Drop-out) 및 최대값 풀링 계층을 가지는 다섯 개의 후속 계층 블록을 구성하여 8개의 다른 클래스에 속하는 RGB 색상의 이미지로 구성된 대장암 조직을 분류하는데, 오류율은 22.7%이다[17].

III. The Proposed Scheme

1. Basic Image Data Augmentation

기본 이미지 데이터 증강은 기하학적 변환과 광도 이동(Photometric Shifting)으로 구성되며 원시(Primitive) 데이터 조작 기술을 포함한다[18]. 기하학적 변환에는 뒤집기, 자르기, 회전, 이동(Translation), 밀림(Shearing) 등이 있으며 광도 이동은 색 공간 변형(Color Space Transformation), 다양한 이미지 필터 적용, 노이즈(Noise) 추가 등이 있다.

뒤집기는 이미지로부터 미러(Mirror) 이미지를 생성하는 기술로서 수평과 수직의 축 중에서 하나를 기준으로 픽셀(Pixel)의 위치를 반전시키는데, 이미지의 상단 영역과 하단 영역이 항상 상호 교환 가능하지는 않을 수 있기 때문에 수직 뒤집기는 선호되지 않는다[19].

자르기는 주밍(Zooming) 또는 스케일링(Scaling)으로 언급될 수도 있다[20]. 자르기는 원래의 이미지를 확대하는 과정으로, 첫 번째 단계는 이미지를 시작 위치 X, Y에서 다른 위치 X‘, Y’까지 절단하고, 두 번째 단계는 이 이미지를 원래 크기로 스케일링하는 것이다[18].

회전은 이미지의 각도를 변환해주는 것으로, 회전 기반 이미지 증강은 원래 위치를 기준으로 이미지를 회전시켜 제공된다. 회전 정도가 증가하면 숫자 6과 9과 같이 이미지의 레이블이 항상 보존되지 않을 수도 있지만, 의료 이미지에서는 일반적으로 안전하다[21].

이동은 이미지 내의 한 위치에서 다른 위치로 객체를 이동시키는 과정으로[22], 이미지 데이터를 보존하기 위해 이동 후에 이미지의 일부를 흰색 또는 검은색으로 남기는 기하학적 이미지 데이터 증강을 하거나 가우시안 노이즈(Gaussian Noise)를 적용한다[18].

밀림은 수직 또는 수평 축을 따라 이미지의 한쪽 가장자리를 기울여 평행사변형의 이미지를 만드는 것으로, 수직 방향 밀림은 수직 축을 따라 가장자리를 기울이는 반면 수평 방향 밀림은 수평 축을 따라 가장자리를 기울이며, 밀림의 양은 각도에 의해 조절된다[21].

색 공간 변형은 이미지 밝기를 수정하거나 각각의 RGB색 채널에서 이미지의 픽셀 값을 종합하여 만든 색 히스토그램을 조작하고 RGB 행렬을 그레이스케일(Grayscale) 이미지로 변환하는 것이다[11]. 그리고, 색 공간의 색상(Hue), 명도(Lightness), 채도(Chroma)를 수정해 주기도 한다.

이미지 필터 적용은 이미지를 선명하게 또는 흐릿하게 만드는 기술로서 가우시안 블러 필터(Gaussian Blur Filter)를 사용하여 이미지를 흐려지게 하거나 수직 또는 수평 에지 필터(Edge Filter)를 이용해 선명한 이미지를 얻을 수 있다[11].

2. Deep Learning Model

현미경으로 촬영된 대장의 생체 검사 조직 이미지의 다중 분류를 위해 합성곱 신경망 모델을 사용하였고, 다수의 합성곱 계층과 풀링 계층을 통해 이미지의 특징을 추출하고 완전연결 계층에서 다층 퍼셉트론(Multi-layer Perceptron)을 통해 분류작업을 수행한다.

본 연구에서 제안된 모델은 Table 1과 같이 5개의 합성곱 계층과 5개의 풀링 계층으로 이루어져 있으며 합성곱 계층과 풀링 계층의 커널(Kernel) 크기는 각각 3x3과 2x2이다. 완전연결 계층은 합성곱 계층의 출력을 가져와 입력 이미지에 대해 소프트맥스(Softmax) 함수를 적용하여 8개 클래스의 확률을 나타내는 최종 출력을 생성한다.

Table 1. Convolutional, Pooling and Fully-connected Layers of Model

CPTSCQ_2023_v28n12_167_f0003.png 이미지

3. Loss Function

모델의 실제 값과 예측 값의 차이는 손실함수(Loss Function)로 측정된다. 본 연구에서는 다중 클래스를 분류하는 데에 일반적으로 사용되는 Sparse Categorical Cross Entropy 손실함수를 사용하며, 수식은 다음과 같다.

\(\begin{aligned}\operatorname{Loss}(w)=-\frac{1}{N} \sum_{i=1}^{N}\left[y_{i} \log \left(\hat{y_{i}}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y_{i}}\right)\right]\end{aligned}\)      - (1)

ω : Model Parameters, e.g. weights

yi : True Label

\(\begin{aligned}\hat{y_{i}}\end{aligned}\) : Predicted Label

IV. Experiment and Results

1. Dataset

본 연구에서는 Kather et al.이 제안한 대장의 생체 검사 조직 이미지의 다중 클래스 데이터셋을 사용했으며[15], 약 74㎛ x 74㎛의 고정 차원 150 pixel x 150 pixel로 8개의 클래스에 대해 각각 625개 이미지를 포함하며 총 5000개의 이미지로 구성되어 있다. 본 이미지 데이터 세트의 한계점은 조직의 두 가지 범주(Tumour & Stroma)만 고려하므로 여러 다른 종류들로 이루어진 조건에서는 적합하지 않다.

데이터셋에는 Fig. 3과 같이 (a) Tumour epithelium, (b) Simple stroma, (c) Complex stroma, (d) Immune cell conglomerates, (e) Debris and mucus, (f) Mucosal glands, (g) Adipose tissue, (h) Background 8가지 종류의 조직학 이미지(Histology Image)가 포함된다.

CPTSCQ_2023_v28n12_167_t0001.png 이미지

Fig. 3. Representative images from dataset

2. Experiment

본 연구에서 제안한 대장의 생체 검사 조직 이미지에 대한 분류 모델의 성능을 평가하기 위해 실험을 진행하였다. 실험은 총 5000개의 이미지 데이터 중에서 4000개의 훈련 데이터와 1000개의 평가 데이터로 나누었으며, 훈련 데이터 4000개에 이미지 데이터 증강 기법으로 1~2배수를 추가하여 8000개와 12000개의 훈련 데이터를 사용하였다.

이미지 데이터 증강 기법으로 뒤집기, 회전, 이동, 밀림, 주밍을 사용하였고 실험 환경은 Table 2와 같다. 본 연구에서는 RMSprop 최적화 기법을 사용하고, Learning Rate Scheduler를 적용하여 Epoch 11회부터 exp(-0.1) 만큼 Learning Rate를 감소시키며, Early Stopping을 적용하여 5회 이상 성능 개선이 되지 않는 경우에 훈련을 조기 종료하는 조건에서 Epoch 30회로 모델을 학습시켰다.

Table 2. Experiment Environment

CPTSCQ_2023_v28n12_167_t0002.png 이미지

3. Performance Metrics

본 연구에서는 다중 클래스의 분류 성능 평가를 위해 정확도(Accuracy), 재현율(Recall), 정밀도(Precision), F1점수(F1 Score)를 사용하였다. 평가는 실제 값과 모델의 예측 값 사이의 TP(True Positive), FN(False Negative), FP(False Positive), TN(True Negative)을 구해서 진행되었다.

정확도는 평가 데이터의 분류된 클래스에서 얼마나 많은 클래스가 올바른 라벨을 가졌는지에 대한 확률을 나타낸다. 재현율은 실제의 클래스에 얼마나 올바르게 클래스를 예측하는지에 대한 확률을 나타내며, 정밀도는 예측된 클래스에 실제로 클래스가 얼마나 일치하는지에 대한 확률을 나타낸다. F1 점수는 재현율과 정밀도의 조화평균으로 이미지 데이터 라벨이 불균형을 이루는 경우에 모델의 성능을 하나의 숫자로 표현하여 정확하게 평가할 수 있다[23]. 평가 항목의 수식은 다음과 같다.

\(\begin{aligned}Accuracy =\frac{T P+T N}{T P+F N+F P+T N}\end{aligned}\)      - (2)

\(\begin{aligned}Recall=\frac{T P}{T P+F N}\end{aligned}\)     - (3)

\(\begin{aligned}Precision=\frac{T P}{T P+F P}\end{aligned}\)    - (4)

\(\begin{aligned}F1 \; score=\frac{2 \times \text { Recall } \times \text { Precision }}{\text { Recall }+ \text { Precision }}\end{aligned}\)     - (5)

4. Results and Analysis

현재 보유하고 있는 5000개의 이미지 데이터를 불러와서 훈련 데이터와 평가 데이터를 4:1로 나누어서, 4000개의 훈련 데이터를 이용하여 모델을 최적화하고 1000개의 평가 데이터를 통하여 정확도, 재현율, 정밀도, F1 점수를 확인하였다. 그리고, 훈련 데이터 4000개에 대하여 Keras에서 제공하는 ImageDataGenerator 클래스를 사용하여 4000개 및 8000개의 이미지 데이터를 증강시켜 각각 8000개와 12000개의 훈련 데이터를 이용하여 모델을 다시 최적화하고, 1000개의 평가 데이터를 이용하여 모델의 성능을 비교 평가하였다.

이미지 데이터를 증강시키기 위하여 수평 및 수직 뒤집기를 하였고, 회전 범위는 0~40도, 이동은 0~20%, 밀림은 0~0.3 Radian, 주밍은 0.6~1.4배의 조건을 적용하였다. 훈련 데이터의 개수 변화에 따른 평가 결과는 Table 3과 같다.

Table 3. Experiment Results

CPTSCQ_2023_v28n12_167_t0003.png 이미지

데이터를 증강하기 전에는 조직 이미지 8개 클래스로 분류하는 정확도가 85.1%인데, 4000개의 이미지를 증강하여 8000개의 이미지를 사용하였을 때에 87.0%이고, 8000개의 이미지를 증강하여 12000개의 이미지를 사용한 경우에 90.2%가 되어, 이미지 증강을 통하여 정확도가 향상되고 있음을 확인할 수 있다. 그리고, 훈련 데이터 개수가 1배수, 2배수 늘어남에 따라 분류 정확도가 선형적으로 증가하는 것이 아니고 지수함수적으로 증가하고 있음을 보여준다.

또한, 재현율, 정밀도, F1 점수도 데이터를 증강하기 전과 비교하여 데이터를 4000개 및 8000개 증강하였을 경우에 점점 개선되고 있음을 알 수 있다. 기존 연구에서 분류 정확도가 77.3 ~ 87.4%임을 감안하면, 기초 이미지 조작 방법을 이용한 데이터 증강 작업은 효과가 있다고 생각된다.

딥러닝을 이용한 분류 작업은 전문가의 결정을 보조하는 역할에 그치며, 진단의 최종 판단은 의사가 하게 된다. 따라서, 딥러닝 기반의 진단 도구의 신뢰도와 정확도를 개선하기 위한 연구는 계속되어야 할 것이다.

인간의 분류 오류율(Human Error)이 5.1%인데[24], 본 연구에서의 분류 오류율은 9.8%로 좀 더 성능을 개선할 필요가 있다. 전이 학습(Transfer Learning)이나 생성적 적대 신경망과 같은 생성 모델을 통한 딥러닝 접근방식, 또는 자동 증강이나 스마트 증강 등과 같은 메타 러닝 접근방식을 적용하게 되면 추가적인 개선이 가능할 것으로 생각된다.

V. Conclusions

본 연구에서는 합성곱 신경망 모델에서 이미지 데이터 증강을 통하여 대장암 진단 모델의 정확도를 개선하고자 하였으며, 기존의 이미지 4000장에 대하여 기하학적 특성을 변형한 8000장의 이미지를 추가함으로써 분류 정확도가 85.1%에서 90.2%로 향상됨을 확인하였다.

본 연구의 학문적 시사점은 의료 분야의 현미경 이미지에 대하여 비교적 단순한 방법인 기초 이미지 조작으로 데이터를 증강하게 되면 정확도, 재현율, 정밀도를 개선할 수 있다는 점이다. 그리고, 실무적 시사점은 의료 현장에서 필요한 이미지를 충분히 확보하기 위하여 시간과 비용이 많이 투자되는데, 본 연구에서와 같이 뒤집기, 회전, 이동, 밀림, 주밍을 사용하여 이미지 데이터를 증강하게 되면 시간과 비용을 절약하면서 모델의 성능을 개선할 수 있다는 것이다.

제안한 방법은 대장의 생체 검사 조직을 촬영한 이미지에 대하여 데이터 증강을 사용하여 정확도를 개선하는 기법이지만, 신체의 다른 조직의 이미지에 대해서도 적용이 가능할 것으로 기대된다. 향후 연구에서는 생성적 적대 신경망 모델을 적용하거나 자동 또는 스마트 증강 모델을 적용하여 정확도를 개선할 예정이다.

참고문헌

  1. Korea National Statistical Office, Causes of Death Statistics in 2022, https://kostat.go.kr/board.es?mid=a10301010000&bid=218&act=view&list_no=427216
  2. J. Malik, S. Kiranyaz, S. Kunhoth, T. Ince, S. Al-Maadeed, R. Hamila, and M. Gabbouj, "Colorectal cancer diagnosis from histology images: A compatative study," arXiv preprint arXiv:1903.11210, 2019.
  3. Y. J. Cha, W. Choi, and O. Buyukozturk, "Deep learning-based crack damage detection using convolutional neural networks," Computer-Aided Civil and Infrastructure Engineering, Vol. 32, No. 5, pp. 361-378, May 2017. DOI: 10.1111/mice.12263
  4. S. Liang, and Y. Gu, "A deep convolutional neural network to simultaneously localize and recognize waste types in images," Waste Management, Vol. 126, pp. 247-257, May 2021. DOI: 10.1016/j.wasman.2021.03.017
  5. H. Wang, "Garbage recognition and classification system based on convolutional neural network vgg16," Proceedings of the 2020 3rd International Conference on Advanced Electronic Materials, Computers and Software Engineering (AEMCSE), pp. 252-255, Apr. 2020. DOI: 10.1109/AEMCSE50948.2020.00061
  6. Y. Shin, S. Heo, S. Han, J. Kim, and S. Na, "An image-based steel rebar size estimation and counting method using a convolutional neural network combined with homography," Buildings, Vol. 11, No. 10, pp. 463, Oct. 2021. DOI: 10.3390/buildings11100463
  7. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, Vol. 86, No. 11, pp. 2278-2324, Nov. 1998.
  8. E. C. Lee, and W. H. Lee, "Recognition of characters on car number plate and best recognition ratio among their layers using Multi-layer Perceptron," The Journal of the Korea institute of electronic communication science, Vol. 11, No. 1, pp. 73-80, Jan. 2016. DOI: 10.13067/JKIECS.2016.11.1.73
  9. A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in neural information processing systems, pp.1097-1105, 2012.
  10. S. W. Bang, "Implementation of Image based Fire Detection System Using Convolution Neural Network," The Journal of the Korea institute of electronic communication science, Vol. 12, No. 2, pp. 331-336, Apr. 2017. DOI: 10.13067/JKIECS.2017.12.2.331
  11. C. Shorten, and T. M. Khoshgoftaar, "A survey on image data augmentation for deep learning," Journal of big data, Vol. 6, No. 1, pp. 1-48, 2019. DOI: 10.1186/s40537-019-0197-0
  12. S. H. Choe, and J. Ma, "Improvement of Detection Performance for Tanks in Aerial Image Using Data Augmentation," Journal of the Korea Academia-Industrial cooperation Society, Vol. 24, No. 5, pp. 229-236, May 2023. DOI: 10.5762/KAIS.2023.24.5.229
  13. C. W. Lee, H. J. Hwang, H. Kwon, S. R. Baik, and W. J. Kim, "A Study on the Classification of Military Airplanes in Neighboring Countries Using Deep Learning and Various Data Augmentation Techniques," Journal of the Korea Institute Military Science and Technology, Vol. 25, No. 6, pp. 572-579, Dec. 2022. DOI: 10.9766/KIMST.2022.25.6.572
  14. N. Sengar, N. Mishra, M. K. Dutta, J. Prinosil, and R. Burget, "Grading of colorectal cancer using histology images," In 2016 39th International Conference on Telecommunications and Signal Processing, pp. 529-532, Nov. 2016.
  15. J. N. Kather, C. A. Weis, F. Bianconi, S. M. Melchers, L. R. Schad, T. Gaiser, A. Marx, and F. G. Zollner, "Multi-class texture analysis in colorectal cancer histology," Scientific reports, Vol. 6, No. 1, pp. 1-11, Jun. 2016. DOI: 10.1038/srep27988
  16. D. Sarwinda, R. H. Paradisa, A. Bustamam, and P. Anggia, "Deep learning in image classification using residual network (ResNet) variants for detection of colorectal cancer," Procedia Computer Science, Vol. 179, pp. 423-431, 2021. DOI: 10.1016/j.procs.2021.01.025
  17. V. Rachapudi, and G. Lavanya Devi, "Improved convolutional neural network based histopathological image classification," Evolutionary Intelligence, Vol. 14, No. 3, pp. 1337-1343, Sep. 2021. DOI: 10.1007/s12065-020-00367-y
  18. N. E. Khalifa, M. Loey, and S. Mirjalili, "A comprehensive survey of recent trends in deep learning for digital images augmentation," Artificial Intelligence Review, Vol. 55, No. 3, pp. 2351-2377, Mar. 2022. DOI: 10.1007/s10462-021-10066-4
  19. J. Nalepa, M. Marcinkiewicz, and M. Kawulok, "Data augmentation for brain-tumor segmentation: a review," Frontiers in computational neuroscience, Vol. 13, pp. 1-18, 2019. DOI: 10.3389/fncom.2019.00083
  20. L. Sifre, and S. Mallat, "Rotation, scaling and deformation invariant scattering for texture discrimination," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1233-1240, Jun. 2013. DOI: 10.1109/DVPR.2013.163
  21. E. Goceri, "Medical image data augmentation: techniques, comparisons and interpretations," Artificial Intelligence Review, Vol. 56, No. 11, pp. 12561-12605, Nov. 2023. DOI: 10.1007/s10462-023-10453-z
  22. A. Vyas, S. Yu, and J. Paik, "Fundamentals of digital image processing," Multiscale Transforms with Application to Image Processing, pp. 3-11, 2018. DOI: 10.1007/978-981-10-7272-7_1
  23. M.. J. Kim, and J. H. Kim, "Proposal of a Convolutional Neural Network Model for the Classification of Cardiomegaly in Chest X-ray Images," Journal of the Korea Society of Radiology, Vol. 15, No. 5, pp. 613-620, Oct. 2021. DOI: 10.7742/jksr.2021.15.5.613
  24. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, "ImageNet Large Scale Visual Recognition Challenge", International Journal of Computer Vision, Vol. 115, No. 3, pp. 211-252, Dec. 2015. DOI: 10.1007/s11263-015-0816-y