DOI QR코드

DOI QR Code

Development of Deep Learning Based Ensemble Land Cover Segmentation Algorithm Using Drone Aerial Images

드론 항공영상을 이용한 딥러닝 기반 앙상블 토지 피복 분할 알고리즘 개발

  • Hae-Gwang Park (AI Solution Division, OceanlightAI Corp.) ;
  • Seung-Ki Baek (AI Solution Division, OceanlightAI Corp.) ;
  • Seung Hyun Jeong (School of Mechatronics Engineering, Korea University of Technology and Education)
  • 박해광 (주식회사 오션라이트에이아이 AI솔루션사업부) ;
  • 백승기 (주식회사 오션라이트에이아이 AI솔루션사업부) ;
  • 정승현 (한국기술교육대학교 메카트로닉스공학부)
  • Received : 2023.12.26
  • Accepted : 2024.02.07
  • Published : 2024.02.28

Abstract

In this study, a proposed ensemble learning technique aims to enhance the semantic segmentation performance of images captured by Unmanned Aerial Vehicles (UAVs). With the increasing use of UAVs in fields such as urban planning, there has been active development of techniques utilizing deep learning segmentation methods for land cover segmentation. The study suggests a method that utilizes prominent segmentation models, namely U-Net, DeepLabV3, and Fully Convolutional Network (FCN), to improve segmentation prediction performance. The proposed approach integrates training loss, validation accuracy, and class score of the three segmentation models to enhance overall prediction performance. The method was applied and evaluated on a land cover segmentation problem involving seven classes: buildings,roads, parking lots, fields, trees, empty spaces, and areas with unspecified labels, using images captured by UAVs. The performance of the ensemble model was evaluated by mean Intersection over Union (mIoU), and the results of comparing the proposed ensemble model with the three existing segmentation methods showed that mIoU performance was improved. Consequently, the study confirms that the proposed technique can enhance the performance of semantic segmentation models.

이 연구에서는 무인 항공기(Unmanned Aerial Vehicle, UAV)가 캡처한 이미지의 의미론적 토지 피복 분할 성능을 향상시키기 위한 앙상블 학습 기법을 제안하고 있다. 도시 계획과 같은 분야에서 UAV 사용이 증가함에 따라 토지 피복 분할을 위한 딥러닝 분할 방법을 활용한 기술 개발이 활발히 이루어지고 있다. 이 연구는 대표적인 분할 모델인 U-Net, DeepLabV3 그리고 Fully Convolutional Network (FCN)를 사용하여 분할 예측 성능을 개선하는 방법을 제안한다. 제안된 접근 방식은 세 가지 분할 모델의 훈련 손실, 검증 정확도 및 클래스별 점수를 통합하여 앙상블 모델을 개발하고 전반적인 예측 성능을 향상시킨다. 이 방법은 건물, 도로, 주차장, 논, 밭, 나무, 빈 공간, 미분류 영역을 포함하는 일곱 가지 클래스가 있는 토지 피복 분할 문제에 적용하여 평가하였다. 앙상블 모델의 성능은 mean Intersection over Union (mIoU)으로 평가하였으며, 제안된 앙상블 모델과 기존의 세 가지 분할 방법을 비교한 결과 mIoU 성능이 향상되었음이 나타났다. 따라서 이 연구는 제안된 기술이 의미론적 분할 모델의 성능을 향상시킬 수 있음을 확인하였다.

Keywords

1. 서론

최근 토지 피복 정보를 파악하는 일은 점점 더 중요해지고 있다. 토지 피복 정보는 건축, 토지 관리, 농업 등 여러 분야에 걸쳐 매우 중요한 영향을 미치고 있다. 이러한 지형 피복 정보를 취득하고 분석할 때 기존의 다양한 방법을 넘어 보다 효율적이고 정확한 방법을 통해 지형 정보를 파악하고 분석할 필요성이 있다.

최근에는 지형 상태를 파악하기 위한 데이터 수집을 위해 무인 항공기(Unmanned Aerial Vehicle, UAV) 또는 드론을 활발하게 사용하고 있다(Colomina and Molina, 2014). UAV는 하늘에서 고해상도 데이터를 수집하여 효율적이고 정확하며 쉽게 사용할 수 있는 정보를 제공한다(Chen et al., 2016; Wu et al., 2015, Lyu et al., 2020). 드론을 사용하는 것으로의 전환은 수많은 응용 분야에서 새로운 지평을 열었고, 데이터 수집 및 분석의 트렌드를 크게 변화시켰다.

특히 드론으로 취득한 데이터는 지리정보시스템과 결합하여 도시 계획과 원격탐사 분야에서 활발히 사용되고 있다(Witcher, 1999). 지리정보시스템은 여러 데이터 계층을 겹치고 공간 쿼리(Query)를 수행하는 것을 포함하여 지리 정보를 더 효율적인 방식으로 처리하고 정보를 해석하는 것을 용이하게 하였다. 또한 지리정보시스템 분야에 기계학습, 심층학습이 활발히 도입되어 이미지 분석과 특징 추출을 위해 수동 또는 반자동화 된 방법에서 지능화, 자동화된 방식으로 크게 변화하고 있다.

기존에 활발히 사용되던 클러스터링(Clustering) (MacQueen et al., 1967), 의사결정 나무(Quinlan, 1986), 서포트 벡터 머신(Support Vector Machine) (Cortes and Vapnik, 1995)과 같은 기술을 사용하여 다양한 토지 피복 유형이나 토양 상태와 같은 지형 특징을 식별하고 분류할 수 있다. 그러나 이러한 모델은 복잡한 패턴이 존재하는 데이터를 다룰 때 일반화된 성능을 얻기에 어려움이 있었다. UAV 장비의 발전에 따른 고해상도 데이터의 취득으로 인해 더욱 정밀하게 지적 분할을 수행할 필요성이 생기면서 기존의 한계를 뛰어넘는 딥러닝 방법론의 탐구로 이어지게 되었다.

특히 이러한 발전은 고해상도 항공 이미지를 분석하는 데 있어 대표적인 기술인 의미론적 분할(Semantic Segmentation)의 활발할 개발 및 적용으로 이어지게 되었다. 의미론적 분할은 이미지의 각 픽셀에 특정 클래스 레이블(Label)을 할당하는 것을 목표로 한다(Long et al., 2015). 이를 달성하기 위해 대표적인 모델인 U-Net (Ronneberger et al., 2015), DeepLabV3 (Chen et al., 2017) 및 Fully Convolutional Network (FCN)(Long et al., 2015)와 같은 분할 모델을 사용한다. FCN 및 DeepLabV3 모델의 경우 ResNet-50 백본(Backbone)을 사용하여 특징 추출을 향상시킨다. 이러한 모델은 정확도 및 mean Intersection over Union (mIoU) (He et al., 2016)과 같은 성능 지표로 성능이 입증되었다. 본 연구에서는 대표적인 의미론적 분할 기법에 앙상블 예측 모델을 더하여 모델 성능을 더욱 향상시키고자 한다.

일반적으로 모델 훈련 중에 신뢰성과 성능을 향상시키기 위해 투표, 스태킹(Stacking) 또는 부스팅(Boosting)과 같은 앙상블 방법이 사용된다(Garcia et al., 2017; Rokach, 2010). 본 연구에서는 세 가지 다른 분할 모델을 모두 활용한 앙상블 투표 시스템이 단일 모델의 예측 성능보다 더 정확한 결과를 제공할 수 있다고 가정한다. 전통적인 앙상블 투표 방식에서는 가장 많은 표를 얻은 결과가 최종 결과이며, 각 모델은 동등한 투표권을 가진다. 또한 동점을 방지하기 위해 홀수의 참가자를 필요로 한다.

이러한 앙상블 분할기법은 정확도를 좀더 향상시킬 수 있다고 알려져 있으나 투표를 구현하는 것에는 어려움이 있다(Kuncheva, 2004). 그것은 각각의 모델이 서로 다른 결과를 제공하는 상황을 고려해야 한다는 것이다. 또한 각 모델의 훈련에서 얻은 성능 지표를 고려할 때 또 다른 문제가 발생한다. 예를 들어 두 모델이 동일한 결과를 도출하고 세 번째 모델은 훈련 중 성능 점수가 더 높고 앞선 두 모델과 다른 결과를 도출하는 경우가 있다. 이 경우 세 번째 모델의 성능 지표와 상관없이 결과가 도출되는 문제가 발생할 수 있다.

Surowiecki(Surowiecki, 2005)는 ‘군중의 지혜’라고 불리는 이 현상에 대해 논의했다. 이 현상은 특정 조건이 충족되는 한 집단의 판단이 종종 단일 전문가의 판단을 무시할 수도 있다고 제안한다. 딥러닝에서 이상적인 투표 환경을 적용하는 데 어려움이 있음에도 불구하고, 본 연구에서는 이러한 문제를 해결하는 데 중점을 두고 잠재적인 문제점을 피하기 위해 모델 학습 과정에서의 합산 점수와 같은 지표를 사용한다. 제안한 기법은 검증 정확도, 훈련 손실 및 mIoU와 같은 지표를 사용한다. 분할의 정확도는 올바르게 분류된 픽셀 또는 영역의 비율을 측정하여 모델의 성능에 대한 전반적인 평가를 제공한다. 손실 점수는 예측된 분할과 실제 분할 사이의 불일치를 정량화 하여 예측된 출력과 실제 분할 사이의 오류 또는 불일치를 나타낸다(Boer et al., 2005; Lin et al., 2017).

본 연구에서는 투표 시스템을 관리하기 위해 각 모델의 훈련 손실 및 검증 정확도 점수의 두 가지 값을 선택한다. 또한 앞서 언급된 2개 지표와 각 모델의 픽셀별 스코어 점수를 이용해 분할 프로세스를 구상한다(Badrinarayanan et al., 2017). 이를 통해 정확도 및 손실 점수와 함께 각 픽셀의 클래스 확률을 계산할 수 있다. 이 값을 사용하여 각 모델은 각 참가자가 동일한 투표권을 가지는 기존 투표 시스템에서 벗어나 결정에 대한 다른 가중치를 얻게 된다. 따라서 본 연구의 접근 방식은 의미론적 분할을 위한 독특하고 잠재적으로 더 효과적인 앙상블 방법을 제공할 수 있다.

제안된 연구를 요약하면 다음과 같다. 먼저 FCN, U-Net, DeepLab V3의 기존 분할 모델을 활용한 예측 모델을 개발한다. 이 세 가지 다른 모델을 사용한 예측이 완료되면 제안된 앙상블 기법을 사용하여 새로운 예측 이미지를 생성한다. 본 연구의 내용은 5개의 장으로 나뉜다. 2장에서는 사용된 분할 모델과 제안한 앙상블 기법에 대해 자세히 설명한다. 이어서 3장에서는 한국에 기반을 둔 저명한 AI 자원 플랫폼인 AI-Hub에서 획득한 데이터 세트에 대해 설명한다. 4장에서는 제안한 앙상블 기법을 데이터셋에 적용한 훈련 및 평가 결과에 대해 설명한다. 마지막으로 5장에서는 주요 결과와 그 시사점을 요약하여 논문을 마무리한다.

2. 연구자료 및 방법

2.1. 앙상블 모델 구성 분할 네트워크

2.1.1. FCN

FCN은 Long et al. (2015)이 제안하였다. 엔드 투 엔드(End-to-End) FCN은 임의의 크기의 입력을 처리하고 그에 상응하는 크기의 출력을 생성한다. FCN의 네트워크 구조는 Fig. 1에 표현되어 있다. 이 네트워크의 중요한 시사점은 ‘Skip’ 구조의 구현이다. 이 구조는 정확하고 상세한 분할 결과를 산출하기 위해 깊은 계층의 특징 정보와 얕은 계층의 특징 정보를 결합한다.

OGCSBN_2024_v40n1_71_f0002.png 이미지

Fig. 1. Overall structure of the FCN model. NC: number of classes.

2.1.2. U-Net

Ronneberger et al. (2015)에 의해 소개된 U-Net 모델은 대칭 구조를 가지는 네트워크이다. U-Net의 구조는 Fig. 2와 같다. 이 구조는 깊이 또는 채널을 증가시키면서 공간 차원을 줄이는 인코딩(Encoding, 수축) 경로와 공간 차원을 복구하는 디코딩(Decoding, 확장) 경로로 구성된다. 이 구조는 인코딩 경로의 각 레벨에서 디코딩 경로의 해당 레벨로 특징을 전달하는 Skip Connection을 통해 세분화된 세부 사항을 유지하도록 설계되었다. 이러한 연결을 통해 인코더의 고해상도 특징이 디코더(Decoder)의 업샘플링(Upsampling)된 또는 업컨볼루션(Upconvolution)된 출력과 결합될 수 있다. 따라서 U-Net은 일반적으로 다운스케일링(Downscaling)동안 손실되어 버리는 공간 정보를 인코딩 경로에 유지할 수 있어 더 정밀한 분할 경계를 생성할 수 있다.

OGCSBN_2024_v40n1_71_f0001.png 이미지

Fig. 2. Structure of the U-Net model.

2.1.3. DeepLabV3

Chen et al. (2017)에 의해 소개된 DeepLabV3 구조는 Atrous 컨볼루션(Convolution)의 사용으로 인해 두드러진다. Fig. 3에서 볼 수 있듯이 Atrous 컨볼루션은 컨볼루션 신경망에서 모델이 특징맵의 해상도를 제어할 수 있는 기술이다. 레이트 파라미터(Rate Parameter)를 조정하여 더 넓거나 더 좁은 시야를 가진 입력에 대해 컨볼루션 연산을 수행할 수 있다. 이를 통해 본질적으로 네트워크는 이미지나 특징을 축소할 필요 없이 객체와 특징을 다른 스케일에서 캡처할 수 있다. 또한 DeepLabV3는 이러한 Atrous 컨볼루션을 다양한 레이트를 병렬 방식으로 사용하여 Atrous Spatial Pyramid Pooling (ASPP)으로 알려진 모듈을 구성한다. ASPP 모듈은 다양한 크기의 객체를 보다 효과적으로 분할할 수 있도록 다양한 스케일의 정보를 캡처한다.

OGCSBN_2024_v40n1_71_f0003.png 이미지

Fig. 3. Principle of atrous convolutional kernel of DeepLabV3 model.

2.2. 제안된 앙상블 지적 분할 알고리즘

2.2.1. 제안된 알고리즘의 특성

앙상블 기법은 기계 학습에서 여러 모델을 하나로 통합하는 강력한 메타(Meta)알고리즘이다. Dieterich et al.(2020)은 베이지안(Baysian) 투표, 배깅(Bagging) 및 부스팅과 같은 방법을 포함하여 앙상블 방법의 기본 개념과 수학적 기반을 소개했다. 본 연구에서는 이 중 투표 방법을 반영하였으며 이 접근 방식은 실제 투표의 개념과 유사하다. 먼저 앞서 언급된 각 모델을 각각 훈련을 시켜 추론모델을 생성한 다음 다른 모델의 결과와 병렬로 연결된다. 최종 예측은 서로 다른 모델에서 가장 많은 ‘표’를 확보하는 결과를 선택한다.

이 전략은 각 모델의 고유한 장점을 기반으로 분할 모델의 성능을 향상시킬 수 있다. 이러한 투표 방법은 정확성을 향상시킬 수 있다는 장점에도 불구하고 효과적으로 구현하기 위해 몇 가지 문제를 해결해야 한다. 그 중 하나의 문제는 앙상블에 포함할 모델의 수를 결정하는 것으로 다양성과 계산 효율성의 균형을 고려한 모델 선정이 필요하다. 또한 명확한 과반수 투표가 없어 최종 예측 선택에 모호성이 발생하는 경우도 있을 수 있다. 이러한 문제점들에도 불구하고 앙상블 투표 방법은 예측 정확성, 모델 안정성 및 일반화를 향상시켜 분할 모델의 평가 과정에서 유용한 기술로 알려져 있다(Chen and Guestrin, 2016).

본 연구의 앙상블 투표방식은 결과의 견고성을 향상시키기 위해 세 가지 모델의 학습 성능 지표를 활용한다. 학습 성능 지표는 훈련 손실과 검증 정확도 두 가지 평가 지표를 사용하였으며, 기본적으로 픽셀 단위 분류의 모음인 의미론적 분할은 각 픽셀에 대해 가장 높은 확률을 가진 클래스를 선택한다. 따라서 앞에서 언급한 훈련 손실과 검증 정확도에 ‘i’번째 클래스에 해당하는 점수를 추가 매개 변수로 도입했다. 훈련 손실, 검증 정확도, 픽셀별 클래스 점수, 3가지 매개 변수를 사용하여 투표 과정에 대한 새로운 가중치를 아래 식과 같이 정의하였다.

\(\begin{align}N_{k}=\frac{V A_{k}}{T L_{k}}\end{align}\)       (1)

여기서 VAk, TLk는 각각 k번째 추론모델의 검증 정확도, 훈련 손실값을 의미한다. k의 모델은 각각 FCN, U-Net, DeepLabV3를 의미한다. 이 값은 각 모델의 훈련 과정에서 가장 높은 성능을 나타내었던 에포크(Epoch)에서 저장된 가중치를 사용하였을 때의 값이다. 위의 수식을 통해 계산된 Nk는 각 픽셀별 최종 점수를 계산하기 위해 아래 식과 같이 사용된다.

Ensemble Score = P(i, j), k Nk       (2)

여기서 P(i, j), k는 k번째 모델의 (i, j) 위치의 픽셀에서의 점수 값이다. 식 (1)과 (2)에 따라 앙상블 점수는 각 모델의 각 픽셀에 대해 계산된다. 이후 특정 픽셀에 대한 앙상블 점수가 가장 높은 클래스가 최종 이미지 분할에서 해당 픽셀에 대한 예측 값으로 선택된다. Fig. 4는그 과정을 개념적으로 표현한 것이다.

OGCSBN_2024_v40n1_71_f0004.png 이미지

Fig. 4. Principle of the proposed ensemble algorithm.

Fig. 4에서 표현하고 있는 과정은 1단계로 FCN, U-Net, DeepLabV3로 구성된 3가지 딥러닝 기반 이미지 세그멘테이션(Segmentation) 모델에 각 입력 이미지를 기반으로 추론된 각 클래스의 확률 값을 산출하고, 2단계로 각 모델의 도출된 확률 값을 기반으로 가중치 Nk 값을 곱한 후 3단계로 각 모델별 산출된 클래스 결과값을 합산 투표하여 가장 높은 값을 최종 클래스로 결정하도록 한다.

2.2.2. 손실 값과 검증 정확도의 근거

본 연구에서는 세 가지 다른 모델의 훈련 과정에서 훈련 손실 및 검증 정확도 점수, 픽셀별 클래스의 점수 값을 투표의 결정 지표로 선택한다. 이러한 지표를 선택한 이유는 다음과 같다. 먼저 훈련 손실 지표는 훈련 데이터에서 각 모델의 학습 효과를 측정하고 그 값이 작을 수록 훈련 데이터에서 모델의 예측과 실제 값 사이의 차이가 작다는 것을 나타낸다. 이는 특히 의미론적 분할과 같이 이미지에서 픽셀 수준의 세부 정보를 학습하는 모델에서 중요한 요소이다. 따라서 훈련 손실은 모델의 학습 깊이를 이해하기 위한 핵심 지표가 된다. 두 번째로 검증 정확도는 학습하지 않은 데이터를 이용해 모델의 일반화 능력을 평가한다. 검증 정확도는 훈련 손실과 달리 이전에 보지 못한 데이터에 대해 모델의 실제 성능을 파악할 수 있으며 높은 값을 가질수록 일반화 성능을 나타내는 모델임을 의미한다. 의미론적 분할의 맥락에서 모델은 다양하고 복잡한 실제 이미지 배열을 통해 효과적으로 일반화해야 하므로 이는 중요한 요소이다. 따라서 이 두 지표를 기반으로 앙상블 예측 공식에 통합하여 개별 모델의 결과와는 다른 결과를 두출하는 것을 가정한다.

2.3. 실험 데이터 수집

본 연구에서는 ‘토지 피복지도 항공위성 이미지 데이터’에서 도출된 데이터를 활용하였다. 이 데이터는 AI-Hub (www.aihub.or.kr)에서 관련 정보를 검색할 수 있다. 해당 데이터 세트는 한국의 다양한 풍경을 시각적으로 나타내는 항공 이미지로 구성되어 있다. 이미지는 경기, 경상, 전라, 강원 및 충청과 같은 수도권과 지방을 포함한 다양한 영역을 포함하며, 각 픽셀당 0.25 m의 고해상도로 캡처 된 데이터 세트이다. 이 데이터 세트에서 10,500개의 이미지를 선택하였으며, 각 이미지에 해당하는 512 × 512 크기의 라벨링 이미지를 참고하였다. 해당 라벨링 이미지는 건물, 주차장, 도로, 가로수, 논, 밭, 나무, 나대지의 8가지 항목을 식별하였다. 또한 사전 정의된 클래스에 해당하지 않는 영역을 포함하기 위해 ‘미분류’ 클래스를 포함하였다. 그러나 ‘도로’와 ‘가로수’ 클래스, ‘논’과 ‘밭’ 클래스를 구별하는 데 불확실성을 확인하였다.

먼저 도로와 가로수를 구분하는 경우, 가로수는 일반적으로 도로의 경계에 인접하여 도로의 일부로 잘못 인식될 수 있다. 특히 도로가 좁고 가로수가 크거나 도로에 그림자를 드리우는 경우, 육안으로 구분하여 표기하는 라벨링 오차가 발생할 수 있다. 또한 논과 밭의 구분은 농작물의 종류나 성장 단계, 물의 유무 등 다양한 요소들에 의해 복잡해질 수 있다. 일부 농경지의 경우 논이 말라 있거나 밭에 물을 대는 경우도 있어 이미지 데이터 상으로 이러한 두 클래스의 구분이 어렵다. 따라서 구별하기 어려운 각 클래스의 쌍을 통합하는 것이 중요하다는 것을 발견하였고, 클래스 통합 과정을 거쳐 건물, 주차장, 도로, 농경지, 나무, 나대지 그리고 미분류 클래스의 7가지 항목으로 구성된 정교한 분류 클래스로 통합하였다.

학습과정을 시작하기 전에 데이터 세트를 면밀히 검토하는 것이 중요하며, Fig. 5에서 볼 수 있듯이 각 클래스의 분포에는 상당한 차이가 있다. 특히 ‘미분류’ 카테고리가 데이터 세트 대부분을 포함하고 있으며, 이는 클래스 불균형을 나타낸다(Shengjja et al., 2021). 이러한 불균형 데이터가 대다수 클래스에 과도하게 집중하지 않도록 주의해서 소수로 포함된 카테고리의 인스턴스(Instance)를 정확하게 구분할 수 있도록 해야 한다.

OGCSBN_2024_v40n1_71_f0005.png 이미지

Fig. 5. Overall class distribution of the used dataset.

2.4. 학습을 위한 실험 데이터 셋팅

Fig. 6은 제안된 앙상블 기법의 전체 프로세스를 나타낸다. U-Net, DeepLabV3 및 FCN의 세 가지 분할 모델을 훈련하기 전에 이미지와 사전에 정의된 클래스 레이블을 포함하는 데이터 세트를 8:2 비율로 훈련 및 테스트를 위한 데이터로 나누었다. 이 과정은 훈련 이미지와 테스트 이미지가 서로 구별되도록 하였다. 학습 프로세스 및 후속 평가를 최적화하기 위해 각 모델의 데이터 세트를 8:2의 비율로 훈련 및 검증 세트로 분할하였다.

OGCSBN_2024_v40n1_71_f0006.png 이미지

Fig. 6. Overall flow chart of the ensemble technique in this study.

2.5. 학습을 위한 실험 데이터 전처리

본 연구에서는 0~255 범위의 RGB 값으로 구성된 이미지 데이터를 사용한다. 모델 학습을 용이하게 하기 위해 이 값들을 255로 나누어 0~1 범위 내에 있도록 정규화 하는 과정을 거쳤다. 또한 세 개의 데이터 세트에 대해 마스크 이미지 픽셀 값에서 해당 레이블 값으로 전환한다. 이 변환은 훈련 중에 분할 모델과 효과적으로 통합할 수 있도록 하는 데 중요하다. 픽셀 값과 픽셀 값에 해당하는 레이블 값은 Table 1에 자세히 나타낸다.

Table 1. Grayscale pixel values and corresponding label values of the provided original labeling image

OGCSBN_2024_v40n1_71_t0001.png 이미지

이 전처리 단계는 원본 이미지 데이터를 기계 학습 알고리즘에 의해 분석 및 해석에 더 적합한 형식으로 조정함으로써 모델 학습의 효율성과 전반적인 성능을 향상시키는 데 필수적인 역할을 한다.

3. 연구결과 및 토의

3.1. 학습 과정

본 연구에서 특정 매개변수를 통제된 조건 하에 고정하여 학습을 진행하였다. 손실 함수로는 초점 손실(Focal Loss)을 사용하였으며, 이는 주로 클래스 불균형이 있는 데이터셋에서 모델이 더 어려운, 즉 잘못 분류하기 쉬운 예시들에 더 많은 관심을 기울이게 하는 함수이다. 최적화 함수로는 Adam (Kingma and Ba, 2014)을 사용하였으며, 이는 자동으로 학습률을 조정해주는 방식으로 널리 채택되고 있는 알고리즘이다.

학습과정에서 배치 크기는 16으로 설정하였다. 배치 크기는 모델이 한 번에 처리하는 데이터의 수를 의미하며, 학습 과정에서 모델이 한번에 16개의 이미지 데이터를 동시에 처리하고 그 결과를 바탕으로 가중치를 업데이트하게 된다. 에포크 수는 총 150번으로 설정하였고, 이는 전체 데이터셋을 순회하는 과정을 150번 수행하였음을 의미한다. 또한 훈련과 검증 세션에서 모델의 정확도, 손실 점수 및 mIoU를 포함하여 훈련 및 검증 과정의 성능 지표를 계산하고 저장하였다. 각 모델의 체크 포인트와 최고 성능의 모델 아키텍쳐(Architecture)를 저장하여 테스트 과정에 사용하였다. 결과는 Table 2와 같으며 훈련 과정에서는 FCN 모델이 가장 높은 성능을 나타낸다고 확인할 수 있다.

Table 2. Loss figures in the learning process and accuracy figures in the verification process for each model

OGCSBN_2024_v40n1_71_t0002.png 이미지

3.2. 분할 모델 평가 지표

모델의 성능을 보장하기 위해서는 모델을 효과적으로 평가하는 것이 필수적이다. 따라서 분할 모델의 평가 전략에는 표준화되고 일반적인 방법 및 지표로 평가되어야 한다. 본 연구에서는 제안된 기법을 평가하기 위해 세 가지 주요 평가지표를 선택했다.

먼저 평균 픽셀 정확도는 의미 분할 평가에 사용되는 일반적인 지표이다(Garcia-Garcia et al., 2017). 이 지표는 전체 픽셀 수에 대해 올바르게 분류된 픽셀의 비율을 클래스의 갯수로 나누어 계산한다. 그러나 클래스가 불균형적으로 표현되는 경우 정확도가 클래스 불균형에 영향을 받을 수 있고 모델의 성능을 완전히 반영하지 못할 수 있다. 두 번째의 평가 지표인 손실 지표는 예측된 분할과 레이블 사이의 불일치를 측정한다(Boer et al., 2005). 손실 점수가 낮을수록 모델의 예측과 실제 레이블이 지정된 데이터 사이의 차이가 줄어든다.

세 번째 평가 지표는 mIoU이다. 정확도는 분할 모델의 성능을 측정하는 간단한 척도이지만 픽셀의 위치 기반 정보는 고려하지 않는다. 예를 들어 정확도는 지표의 픽셀 수만 고려한다. 따라서 이러한 한계를 해결하기 위한 다른 접근법이 필요하다. IoU는 픽셀의 위치기반 정보를 통합하여 해결책을 제공한다. IoU는 예측된 픽셀의 위치와 실제 픽셀의 위치에 대해 교차 시킨 조합의 비율로 계산된다(Garcia et al., 2017). IoU 점수가 높을수록 예측된 분할 레이블과 실제 레이블이 일치한다는 것을 의미한다. mIoU는 모든 클래스에서 IoU 점수의 평균값을 나타낸다.

3.3. 앙상블 모델의 평가

학습단계 완료 후 각 개별 모델의 성능과 제안하는 앙상블 기법을 비교하여 mIoU 점수를 기반으로 성능을 분석했다. Table 2는 훈련 과정 중 각 모델의 손실 값과 검증 정확도 값을 나타낸다. FCN은 훈련 과정 중 다른 두 모델에 비해 우수한 성능을 보여주었지만, 제안된 앙상블 방법은 세 모델을 모두 통합했을 때 가장 우수한 예측 정확도 결과를 나타내었다. Fig. 7에는 본 연구에서 사용된 테스트 데이터셋을 무작위로 4개 선정하여 피복분할을 수행한 결과를 나타낸다. Fig. 7에서볼때 U-Net의 경우 전반적으로 타 모델에 비해 피복 분할 예측 수행결과와 실제 라벨 이미지와의 차이가 있음을 확인할 수 있고, 그 외 두 개의 모델같은 경우는 실제 라벨 이미지와 유사한 정확도를 가지고 있어 시각적으로 큰 차이는 없다.

OGCSBN_2024_v40n1_71_f0007.png 이미지

Fig. 7. Land cover prediction results for each model and ensemble model.

하지만 Table 3에서 볼 수 있듯이 제안된 앙상블 방법은 예측에서 가장 우수한 성능을 보이는 단일 FCN 모델에 비해 mIoU 점수를 0.4% 향상시켰고, 세부적인 영역에서 앙상블 모델이 좀 더 정확하게 피복 분할을 수행하는 것을 확인할 수 있었다. 이는 DeepLabV3 및 U-Net 모델이 FCN보다 개별 성능이 낮지만 이들의 예측이 여전히 제안된 앙상블 접근 방식에서 최종 결과에 영향을 미쳤음을 나타낸다. Table 4에는 각 모델의 클래스별 IoU 값을 나타냈다.

Table 3. Comparison of mIoU values for each model and ensemble model

OGCSBN_2024_v40n1_71_t0003.png 이미지

Table 4. Comparison of IoU values for each class of each model and ensemble model

OGCSBN_2024_v40n1_71_t0004.png 이미지

4. 결론

본 연구에서는 이미지 분할 작업의 성능을 향상시키기 위한 접근 방식으로 앙상블 방법을 제시했다. 본 연구에서는 FCN, DeepLabV3, U-Net의 검증 정확도와 훈련 손실 값을 활용하여 최종 추론 결과를 도출하는 방식을 제시하였고, 이를 토지 피복 분할 데이터에 적용하여 정확도를 검증해 보았다. 그 결과 각 모델의 mIoU 결과 값과 비교했을 때 정확도가 상승하는 것을 확인할 수 있었다. 따라서 제안한 방법은 여러 모델의 출력을 통합하여 개별 모델 아키텍처의 미세 조정에 주로 의존해온 기존 분할 전략의 경계를 확장한다.

결론적으로 본 연구를 통해 앙상블 방법이 기존 모델을 통합하여 좀 더 정확성이 향상될 수 있다는 것을 확인할 수 있었다. 또한 이미지 데이터의 다양성과 진화하는 복잡성을 고려할 때 향후 연구에서는 본 연구에서 고려한 분할 모델 외에 새롭게 개발되고 있는 정교한 모델에 앙상블을 적용할 수도 있다. 따라서 앙상블 모델은 잠재적으로 더 세부적인 부분을 포착하여 분할 모델의 성능을 더욱 향상시킬 수 있다. 종합적으로 보았을 때 본 연구는 향후 연구를 위한 시작단계를 제시하며, 이는 이미지 분할 분야의 실제 적용 가능성과 그 성능을 향상시키기 위해 앙상블 기반 접근 방식을 더욱 탐구하고 개선할 것으로 기대한다.

사사

본 논문은 교육부와 한국연구재단의 재원으로 ‘3단계 산학연협력선도대학 육성사업(LINC 3.0)’의 지원을 받아 수행된 연구결과입니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Badrinarayanan, V., Kendall, A., and Cipolla, R., 2017. SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12), 2481-2495. https://doi.org/10.1109/TPAMI.2016.2644615
  2. Chen, C., Zhang, B., and Su, H., 2016. Land-use scene classification using multi-scale completed local binary patterns. Signal, Image and Video Processing, 101, 745-752. https://doi.org/10.1007/s11760-015-0804-2
  3. Chen, L.C., Papandreou, G., Schroff, F., andAdam, H., 2017.Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587. https://arxiv.org/abs/1706.05587
  4. Chen, T., and Guestrin, C., 2016. XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, Aug. 13-17, pp. 785-794. https://doi.org/10.1145/2939672.2939785
  5. Cortes, C., and Vapnik, V., 1995. Support-vector networks. Machine Learning, 20, 273-297. https://doi.org/10.1007/bf00994018
  6. Dietterich, T. G., 2020. Ensemble methods in machine learning. In: Multiple Classifier Systems, MCS 2000, Springer, pp. 1-15. https://doi.org/10.1007/3-540-45014-9_1
  7. Garcia-Garcia, A., Orts-Escolano, S., Oprea, S., Villena-Martinez, V., and Garcia-Rodriguez, J., 2017. A review on deep learning techniques applied to semantic segmentation. arXiv preprint arXiv:1704.06857. https://arxiv.org/abs/1704.06857
  8. He, K., Zhang, X., Ren, S., and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 770-778.
  9. Kingma, D. P., and Ba, J., 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980. https://doi.org/10.48550/arXiv.1412.6980
  10. Kuncheva, L. I., 2004. Combining pattern classifiers: methods and algorithms. John Wiley & Sons. https://doi.org/10.1002/0471660264
  11. Lin, T.-Y., Goyal, P., Girshick, R., He, K., and Dollar, P., 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, pp. 2980-2988.
  12. Long, J., Shelhamer, E., and Darrell, T., 2015. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, June 7-12, pp. 3431-3440.
  13. Lyu, Y., Vosselman, G., Xia, G.-S., Yilmaz, A., and Yang, M. Y., 2020. UAVid: A semantic segmentation dataset for UAV imagery. ISPRS Journal of Photogrammetry and Remote Sensing, 165, 108-119. https://doi.org/10.1016/j.isprsjprs.2020.05.009
  14. MacQueen, J., 1967. Some methods for classification and analysis of multivariate observations. In Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, CA, USA, June 21-July 18, pp. 281-297.
  15. Quinlan, J. R., 1986. Induction of decision trees. Machine Learning, 1, 81-106. https://doi.org/10.1007/BF00116251
  16. Rokach, L., 2010. Ensemble-based classifiers. Artificial Intelligence Review, 33, 1-39. https://doi.org/10.1007/s10462-009-9124-7
  17. Ronneberger, O., Fischer, P., and Brox, T., 2015, U-Net: Convolutional networks for biomedical image segmentation. arXiv preprint arXiv:1505.04597. https://arxiv.org/abs/1505.04597
  18. Shengjja, C., Yunhan, Z., Shangru, Y., and Songlin, C., 2021. Research on Python data visualization technology. Journal of Physics: Conference Series, 1757, 012122. https://doi.org/10.1088/1742-6596/1757/1/012122
  19. Surowiecki, J., 2005. The Wisdom of crowds. Anchor.
  20. Witcher, R. E., 1999. GIS and landscapes of perception.In: Gillings, M., Mattingly, D., van Dalen, J. (eds.), Geographical information systems and landscape archaeology, Oxbow Books, pp. 13-22. https://dro.dur.ac.uk/5297/01/5297.pdf