DOI QR코드

DOI QR Code

Performance Comparison of Machine Learning Models for Grid-Based Flood Risk Mapping - Focusing on the Case of Typhoon Chaba in 2016 -

격자 기반 침수위험지도 작성을 위한 기계학습 모델별 성능 비교 연구 - 2016 태풍 차바 사례를 중심으로 -

  • Jihye Han (Disaster Information Research Division, National Disaster Management Research Institute) ;
  • Changjae Kwak (Disaster Information Research Division, National Disaster Management Research Institute) ;
  • Kuyoon Kim (Disaster Information Research Division, National Disaster Management Research Institute) ;
  • Miran Lee (Disaster Information Research Division, National Disaster Management Research Institute)
  • 한지혜 (국립재난안전연구원 재난정보연구실) ;
  • 곽창재 (국립재난안전연구원 재난정보연구실) ;
  • 김구윤 (국립재난안전연구원 재난정보연구실) ;
  • 이미란 (국립재난안전연구원 재난정보연구실)
  • Received : 2023.09.09
  • Accepted : 2023.10.06
  • Published : 2023.10.31

Abstract

This study aims to compare the performance of each machine learning model for preparing a grid-based disaster risk map related to flooding in Jung-gu, Ulsan, for Typhoon Chaba which occurred in 2016. Dynamic data such as rainfall and river height, and static data such as building, population, and land cover data were used to conduct a risk analysis of flooding disasters. The data were constructed as 10 m-sized grid data based on the national point number, and a sample dataset was constructed using the risk value calculated for each grid as a dependent variable and the value of five influencing factors as an independent variable. The total number of sample datasets is 15,910, and the training, verification, and test datasets are randomly extracted at a 6:2:2 ratio to build a machine-learning model. Machine learning used random forest (RF), support vector machine (SVM), and k-nearest neighbor (KNN) techniques, and prediction accuracy by the model was found to be excellent in the order of SVM (91.05%), RF (83.08%), and KNN (76.52%). As a result of deriving the priority of influencing factors through the RF model, it was confirmed that rainfall and river water levels greatly influenced the risk.

Keywords

1. 서론

국내에서 매년 발생하는 대표적인 자연재난으로 풍수해(태풍, 호우, 강풍 등)가 있으며, 이는 여름에서 가을 시기에 막대한 피해를 준다. 재해연보를 기준으로 전국에서 발생한 재난피해 통계 조사 결과(’16~’20년), 인명피해는 총 190명으로 그 중 호우가 28.4%에 해당하는 54명(2위), 태풍이 14.7%에 해당하는 28명(3위)으로 집계되었으며, 재산피해는 총 21,519억원 중 호우가 59.9%에 해당하는 12,881억원(1위), 태풍은 33.2%인 7,145억원(2위)으로 타 재난에 비해 압도적으로 높은 것으로 나타났다(National Disaster Management Research Institute, 2022).

기술의 고도화 및 도시구조 변화, 기후변화 등의 영향으로 인해 자연·사회재난이 복합적이고 대규모 형태의 재난으로 변화하고 있다. 그 중에서도 최근 이상기후로 인한 대규모 집중호우로 저지대 침수, 하천 범람, 제방 및 급경사지 붕괴, 도로 유실 등의 피해가 빈번하게 발생하고 있다. 대표적인 피해 사례로 2022년 8월에 발생한 수도권 집중호우가 있다. 이는 기후변화로 인해 덥고 습한 공기와 대기 수증기 양이 증가하면서 시간당 최대 141.5 mm 강우량을 기록한 집중호우로 이어졌다. 이로 인해 하천변 저지대 지역, 지하공간 및 반지하 주택 밀집지역, 노후 단독주택 등에서 인명 및 재산 피해가 집중되어 발생하였다. 2022년 9월에 발생한 태풍 힌남노의 경우 경남 거제로 상륙하여 부산과 경북 내륙지역을 관통하였으며, 방재시설물의 계획빈도(80년)를 넘어서는 500년 빈도 이상의 강우가 내린 지역에서 주요 하천이 범람하여 주변 지역의 건물 등의 침수 피해가 발생하였다(National Disaster Management Research Institute, 2022). 이와 같이 풍수해로 인한 2차 피해와 재발을 최소화하기 위해 침수 재난에 대한 위험 분석을 수행함으로써 사전 대비 및 대응 계획 수립에 활용할 수 있다.

침수 재난 위험 분석 시에는 실제 재난 발생에 영향을 미치는 기후와 같은 물리적 요인뿐 아니라 지질, 지형, 사회, 경제 등 다양한 요인들을 고려하여 위험도를 산정한다. 해당 과정에서 사용되는 자료는 공간정보(vector, raster)인 경우도 있지만, 문서 형태인 텍스트 정보, 그래프 및 엑셀 형태의 통계정보 등 비정형 자료가 다수 존재한다. 이와 같이 상이한 형태의 자료를 융합하여 활용하기 위해 가장 보편적으로는 행정구역 단위로 재난 위험 분석을 하여 정보를 제공한다. 행정구역 단위를 적용할 경우, 자료를 가공하는 과정이 격자 형태에 비해 비교적 간소하다는 장점이 있지만, 통계 자료의 집계 범위가 상이하거나 결측치가 존재할 경우 분석에 어려움이 있다. 또한 행정구역 내에서 어떤 지역이 상대적으로 더 위험한지 파악하기가 어려우며, 행정구역은 지역별로 크기와 구역경계가 불규칙하기 때문에 위험도 결과를 비교하기 어렵다. 따라서 본 연구에서는 행정구역의 최소 단위인 읍면동 보다 세밀한 국소 지역의 위험도를 분석하고 동일한 기준으로 위치 표현이 가능한 격자형태의 국가지점번호 체계를 활용하여 재난위험분석을 수행하였다.

국가지점번호는 「도로명주소법」 제2조, 제23조에 따라 전 국토와 인접 해양을 격자형태로 일정하게 구분하고, 구획한 지점마다 부여된 번호로 위치를 표시하는 체계이다. 기준점은 단일평면직각좌표계의 원점(universal transverse mercator [UTM]-K)으로부터 서쪽으로 300 km, 남쪽으로 700 km지점이다. 기준점에서 가로와 세로 방향으로 100 km 크기의 격자로 구분하여 문자 단위를 부여한 다음, 나눠진 지점의 왼쪽 아래 모서리를 기준으로 10 m 크기의 1만개 격자로 나누어 부여한 4자리 정수를 연결한 번호의 형태를 갖추고 있으며, 격자 체계는 10 m, 100 m, 1 km, 10 km, 100 km크기로 구성되어 있다. 격자체계를 활용하게 되면 공간적 표현 단위의 상세화가 가능하고 이종 데이터의 융합·분석 시 정보 왜곡을 최소화할 수 있다. 또한 행정구역에 비해 크기가 일정하여 객관적인 비교가 가능하다(National Disaster Management Research Institute, 2022).

침수 관련 재난 위험도를 산출하기 위해 본 연구에서는 실시간으로 자료가 지속적으로 수집되며 시계열 성격을 가지고 있는 강우와 하천수위를 동적 데이터로 분류하고, 데이터의 갱신 주기가 비교적 긴 자료인 건물, 인구, 토지피복 자료를 정적 데이터로 분류하여 사용하였다. 실제 침수 발생에 직접적인 영향을 끼치는 요인인 강우와 하천수위의 현황에 따라 재난 위험도가 변동되는 위험지도를 작성함으로써 실제 재난 발생 시 위험한 지역의 위치를 신속하게 파악하고 선제적 관리 및 대응 계획을 수립할 수 있다.

이처럼 주기적으로 수집되는 실시간 자료를 반영한 재난위험지도를 작성하기 위해 기계학습 모델을 구축하였다. 5개의 재난피해 영향요인을 리스크 매트릭스 형태의 침수 관련 재난위험분석 모델을 사용해 위험도를 산출하여 5등급화 하였다. 이를 기계학습 모델로 구축하고, 추후 해당 모델에 새로운 데이터를 반영하였을 때 위험등급 확인이 가능하다. 또한, 트리 계열 모델을 통해서는 모델 구축 시 반영된 영향인자 간의 우선순위를 도출할 수 있어 해당 재난에 가장 큰 영향을 미친 요인을 도출할 수 있다.

National Disaster Management Research Institute (2021)은 해당 연구의 선행 연구로 자연재난인 침수와 사회재난인 화재사고를 대상으로 울산광역시의 재난위험분석 및 지도 작성을 위한 연구를 수행하였다. 본 논문의 재난 유형과 동일한 침수의 경우, 국가지점번호를 기반으로 100 m 격자 체계를 적용하였으며, 통계정보, 지리정보, 시설정보, 기상정보, 텍스트 기반 정보 등에 해당하는 총 31개의 영향인자 데이터를 수집·구축하였다. 이는 침수 상황 시나리오별로 설계된 데이터를 적용하여 재난위험지도로 작성되었다. 해당 연구를 통해 격자형태로 표출되는 영향인자의 정보와 위험분석 결과가 가시성이 우수할 뿐 만 아니라 격자가 위치한 지역의 위험지도를 상세하고 정밀하게 확인할 수 있어 상황이나 업무에 따라 보다 유용한 것으로 파악되었다. 한계점으로는 데이터 수집 시 지자체 담당자를 통해 직접 수급해야 하는 자료들이 다수 있었으며, 지자체에서 자체적으로 보유하고 있는 자료는 형태(텍스트, 이미지, 엑셀 등)가 상이한 경우가 많아 데이터 정제 시 어려움이 있었다.

선행연구를 기반으로 본 연구에서는 침수 관련 재난 위험지도 작성을 위해 2016년 발생한 태풍 차바 사례를 바탕으로 5개의 영향요인을 선정하고 이를 공간 및 격자 데이터로 구축하고자 하였다. 5개의 영향요인은 전국 대상으로 동일한 형태의 자료를 공공데이터로 취득할 수 있으며, 침수 피해에 영향을 주는 요인을 National Disaster Management Research Institute (2021)에서 선정한 31개의 목록에서 선별하였으며, 최종적으로 강우, 하천수위, 건물, 인구, 토지피복이 이에 해당한다. 격자 체계는 100 m보다 세밀한 위험도를 파악할 수 있는 10 m 크기로 데이터를 구축하였으며, 이를 리스크 매트릭스(risk matrix) 형태의 침수 관련 재난위험분석 모델을 사용하여 위험도를 산출하였다. 산출된 위험도는 5등급화 하여 격자별 등급을 부여하였으며, 이를 기계학습 모델로 구축하였다. 기계학습은 동일한 데이터를 사용하여 랜덤 포레스트(random forest, RF), 서포트 벡터 머신(support vector machine, SVM), K-최근접 이웃(k-nearest neighbor, KNN) 총 3개의 모델을 구축하여 예측 정확도를 비교해 우수한 성능의 모델을 도출하고자 하였다. 또한, 모델 구축에 사용된 영향요인 중 우선순위를 도출하여 재난 위험에 영향력이 높은 인자를 확인하고자 하였다.

2. 연구 자료

2.1. 연구 지역

울산광역시는 위도 35° 32′ 20″ N, 경도 129° 19′ 00″ E에 위치하고 있으며, 4개의 구(동구, 중구, 남구, 북구)와 1개의 군(울주군)으로 구성되어 있다(Ulsan Metropolitan City, 2023). 행정구역 전체 면적은 1,061.54 km2, 총 인구수는 1,110,074명으로(2023년 1월 31일 기준, 외국인 제외) 전체 면적 중 약 66%에 해당하는 도시 지역에 총 인구의 99.8%가 거주하고 있어 타 지역에 비해 인구 밀집도가 높다(Ministry of Land, Infrastructure and Transport, 2021).

2021년 울산광역시 안전관리계획에 따르면 울산광역시의 장마철 기간 내 평균 강수량은 686.9 mm로 전국 2위에 해당한다(Ulsan Metropolitan City, 2021). 2016년에 발생한 태풍 차바는 1시간 최대 강우량이 104.2 mm로 기록되었으며, 이로 인해 전국에서 가장 큰 침수피해가 울산광역시에서 발생하였다(Ministry of the Interior and Safety, 2017). 당시 울주군과 북구는 특별재난지역으로 선포되었으며, 중구의 경우 공사현장의 배수시설 등 홍수 피해 예방을 위한 대책 수립 미흡, 남구의 여천천과 무거천, 울주군의 삼동천과 대복천 등 주요 지역에 위치한 소하천의 범람으로 인해 주변 지역에 큰 피해를 야기하였다(Kang et al., 2021). 피해현황을 살펴보면 공공시설 896개소, 재산피해 543억원으로 나타났으며, 태화시장 및 현대자동차 제2공장의 침수로 인한 2차 피해가 발생하였다(National Disaster Management Research Institute, 2021).

국가지점번호 체계(100 km) 기준 울산광역시는 ‘마마’구역에 해당하며, 행정구역 내 10 m격자는 총 10,564,653개이다(Table 1). 본 연구에서는 태풍 발생 시 하천 범람 가능성이 있어 침수 위험이 높은 태화강에 인접하게 위치하고 있으며, 저지대 및 홍수위험구역이 다수 분포하고 있는 울산광역시 중구를 시범 연구대상 지역으로 선정하였다(Fig. 1).

Table 1. 10 m grid data by Ulsan district (Unit: cell)

OGCSBN_2023_v39n5_2_771_t0001.png 이미지

OGCSBN_2023_v39n5_2_771_f0001.png 이미지

Fig. 1. National point number.

2.2. 침수 관련 재난피해 영향요인

2.2.1. 실시간 정보

실시간 정보인 강우와 하천수위는 태풍 차바로 인해 최대 강우량이 발생한 2016년 10월 5일의 자료를 수집하였다. 강우 정보 수집 지점은 방재기상관측(automatic weather system, AWS) 기준 울산광역시의 7개 지점과 외곽지역의 11개 지점을 대상으로 티센 폴리곤(Thiessen polygon) 분석을 통해 울산광역시 행정구역에 영향을 미치는 총 14개의 지점을 도출하였다. 추가로 울산광역시에 위치하고 있는 종간기상관측(automated synoptic observing system, ASOS) 지점인 울산(station code: 152)을 추가하여 총 15개 지점에 대한 1분 단위 강우량 정보를 수집하였다(Table 2). 본 연구에서는 1분 단위 강우량 자료를 10분으로 가공하여 2016년 10월 5일에 해당하는 지점별 10분 단위 강우량 정보 데이터를 구축하였다.

Table 2. Location point of rainfall data

OGCSBN_2023_v39n5_2_771_t0002.png 이미지

하천수위 정보 수집 지점은 태화강 권역에 위치한 5개의 지점을 대상으로 10분 단위 정보를 수집하였다(Table 3). 하천수위의 경우, 풍수해로 인한 피해 범위로 예상되는 구역을 설정하기 위해 환경부에서 제공하는 홍수위험지도 자료를 사용하였으며, 하천영역에 해당하는 구역 설정을 위해 하천경계, 실폭하천, 소하천, 호소, 저수지 등의 자료를 결합하여 사용하였다(Table 4).

Table 3. Location point of river stage data

OGCSBN_2023_v39n5_2_771_t0003.png 이미지

2.2.2. 공간정보 자료

공간정보 자료인 건물, 인구, 토지피복에 대한 자료 수집 현황은 Table 4와 같다. 건물 자료의 경우 국가공간정보포털(http://www.nsdi.go.kr/)을 통해 제공하는 GIS 건물통합정보 데이터를 수집하였다. 이는 폴리곤 형태로 제공하고 있으며, 건물 면적 값을 활용하였다. 인구 자료의 경우, 국토지리정보원에서 제공하는 국토통계자료인 100 m 격자별 총 인구수 자료를 활용하였다. 이는 국가지점번호 체계를 기반으로 격자 형태의 폴리곤으로 제공하고 있다. 토지피복 자료는 환경공간정보서비스에서 중분류 토지피복 자료를 수집하였다.

Table 4. Data for flooding risk assessment

OGCSBN_2023_v39n5_2_771_t0004.png 이미지

ME: Ministry of Environment, NGII: National Geographic Information Institute, MOLIT: Ministry of Land, Infrastructure and Transport, KMA: Korea Meteorological Administration.

3. 연구 방법

3.1. 공간 데이터 구축

3.1.1. 강우

강우 데이터는 AWS 관측소 위치별 10분 단위의 강우 값을 역거리 가중법(inverse distance weighting, IDW)을 사용하여 울산광역시 전체 영역에 대해 보간하였다. 이를 10 m 격자별로 각 위치에 해당하는 보간 값을 추출하였으며, 이는 강우의 최종 격자 데이터로 사용되었다(Fig. 2).

OGCSBN_2023_v39n5_2_771_f0002.png 이미지

Fig. 2. Construction of rainfall distribution grid data.

3.1.2. 하천수위

하천수위 데이터는 하천수위 관측지점 위치별 10분 단위 해발표고(EL.m) 값을 크리깅(kriging) 기법을 사용하여 울산광역시 전체 영역에 대해 보간하였다. 이를 10 m 격자별 위치에 해당하는 지점에서 크리깅 한 결과물의 보간 값과 10 m급 수치표고모형(DEM) 값을 각각 추출하였다.

본 연구에서는 하천수위로 인한 피해에 영향이 있을 것으로 판단되는 지역을 홍수위험지도의 영역으로 가정하였다. 따라서 울산광역시 전체에 해당하는 격자 중 홍수위험지도와 교차하는 영역을 1차로 선별하였다. 그 외 나머지 지역은 모두 0 값으로 처리하였다. 다음으로 홍수위험지도 영역 중 하천 영역과 중복되는 지역을 추출하였다. 하천으로 구분된 지역은 하천수위의 위험 영향이 없는 것으로 간주하고 해당 지역 또한 0 값으로 처리하였다. 최종적으로 하천수위의 영향력이 있을 것으로 간주되는 격자는 총 23,090개였으며, 이에 대한 값을 산정하였다. 해당 격자는 지점별 해발 표고를 보간하여 추출한 값에서 DEM 값을 뺀 값이 최종 격자 데이터의 값으로 사용되었다(Fig. 3).

OGCSBN_2023_v39n5_2_771_f0003.png 이미지

Fig. 3. Construction of river stage distribution grid data.

3.1.3. 건물

건물 데이터는 격자 내 위치한 건물 면적의 합을 사용하고자 하였다. 건물 폴리곤의 경우, 형상이 정형화 되어있지 않으며 10 m 격자 경계에 걸쳐서 위치하는 경우가 대부분이다. 따라서 격자 폴리곤을 기반으로 건물 폴리곤을 자르는 작업을 수행하였다. 경계에 따라 잘린 폴리곤은 각각의 면적을 재 산정해주었으며, 10 m 격자 내 포함된 건물은 해당 영역에 속한 면적 합을 산출하여 최종 격자 데이터의 값으로 사용하였다(Fig. 4).

OGCSBN_2023_v39n5_2_771_f0004.png 이미지

Fig. 4. Construction of building area grid data.

3.1.4. 토지피복

1차적으로 가공된 토지피복도 자료는 건물 자료와 동일하게 10 m 격자 경계에 따라 잘라주는 작업을 수행하였다. 잘린 폴리곤의 면적은 재 산정해주었으며, 각 폴리곤이 위치한 영역에 해당하는 격자의 국가지점번호를 확인하기 위해 해당 속성값을 위치에 따라 결합해주었다. 폴리곤별 가지고 있는 중분류 코드인 ‘L2_CODE’ 값과 분류 코드별로 매칭되는 환경부의 홍수량 산정 표준지침의 국내 유출곡선지수(curve number, CN)1) 값을 곱하여 면적 가중 값을 산정하였다. 하나의 격자 내 위치한 모든 면적 가중 값을 합산한 후, 100으로 나눈 평균값을 최종적인 토지피복 면적의 격자 데이터의 값으로 사용하였다(Fig. 5). 해당 과정은 하나의 격자 내 다양한 토지피복이 존재하기 때문에 각 분류에 맞는 유출곡선지수 값을 반영하기 위한 과정이다.

OGCSBN_2023_v39n5_2_771_f0005.png 이미지

Fig. 5. Construction of landcover grid data.

3.1.5. 인구

인구 데이터는 국토지리정보원에서 제공하는 국토통계자료인 100 m 격자별 총 인구수 자료를 활용하였다. 이는 100 m 격자에 해당하는 값을 100 등분하여 해당 영역 내 10 m 크기의 격자 100개에 동일 값을 부여하여 사용하였다(Fig. 6).

OGCSBN_2023_v39n5_2_771_f0006.png 이미지

Fig. 6. Construction of population grid data.

3.2. 침수위험분석 모델

재난 위험도를 평가하기 위해 발생가능성(likelihood)과 영향도(potential impact)를 산정하여 리스크 매트릭스 기반의 위험도를 산출하였다(National Disaster Management Research Institute, 2022). 본 연구에서 정의하는 발생가능성과 영향도는 다음과 같다. 발생가능성은 침수가 발생하는데 직접적인 영향을 미치는 요인으로 강우와 하천수위의 시계열 데이터를 통해 위험발생 확률을 재현 기간의 비율로 산정한다. 영향도는 5개의 영향인자 값을 모두 적용하며, 각 데이터의 요인을 최소-최대 정규화를 적용한 후 산술 평균하는 방식을 적용하였다. 최종적으로 재난위험도는 식(1)과 같이 계산되며, 침수 관련 재난위험분석 모델은 발생가능성을 X축, 영향도를 Y축으로 설정하는 위험분석 매트릭스 형태로 설정할 수 있다(Fig. 7). 발생가능성과 영향도 구간은 각 20%의 등간격으로 분류된다. 해당 모델을 통해 태풍 차바 당시의 재난 위험도를 산출하였으며, 이를 통해 도출된 등급 값을 각 격자별로 적용하여 재난위험지도를 작성한다.

Risk = Likelihood × Potential Impact (1)

OGCSBN_2023_v39n5_2_771_f0007.png 이미지

Fig. 7. The risk matrix for flooding disaster analysis.

3.3. 기계학습 모델

3.3.1. 랜덤 포레스트(Random Forest)

랜덤 포레스트(RF)는 Breiman (2001)에 의해 제안된 기법으로 다수의 의사결정 트리(decision tree, DT)를 구축하여 학습하는 앙상블 모델의 기계학습 기법이다. 해당 기법은 분류 및 회귀 분석이 모두 가능하며, 단일 트리에 비해 더 많은 경우의 수를 고려할 수 있는 특징이 있다. 또한, 모델 구축 시 반영된 영향요인 간의 중요도를 측정할 수 있어 모델 정확도 개선이나 종속변수에 대한 영향도를 파악하는데 중요한 정보로 활용할 수 있다.

RF 모델은 하이퍼파라미터(hyperparameter)를 기본값으로 설정하였을 때도 비교적 높은 정확도의 모델 구축이 가능하며, 영향요인들의 데이터 값의 범위를 동일하게 맞추는 데이터 스케일링(data scaling) 과정을 필수적으로 거치지 않아도 된다는 장점이 있다. 또한, 타 모델에 비해 과적합(overfitting) 발생가능성이 낮으며, 다양한 데이터에서 좋은 성능을 나타낸다. 그러나 트리 기반의 알고리즘인 해당 모델은 하이퍼파라미터의 종류가 다소 많아 최적 하이퍼파라미터 값을 도출하기 위해 많은 시간이 소요되는 편이다.

RF 모델의 주요 하이퍼파라미터의 종류는 총 4가지로 다음과 같다. ‘n_estimator’는 모델 내 만들어지는 의사결정트리의 개수이며, 일반적으로 트리의 개수가 많아지면 모델의 성능이 높아지지만, 개수를 늘린다고 정확도가 무한으로 상승하지 않는다. 또한, 이에 따라 속도가 느려지기 때문에 적정 값을 찾는 것이 중요하다. ‘max_depth’는 모델 내 각 의사결정트리의 최대 깊이를 결정하는 요소로, 깊이가 깊어질수록 더 많이 분할되어 많은 정보를 얻을 수 있는 반면에 과적합이 발생할 수 있다. ‘min_samples_split’는 노드(node)를 분할하기 위한 최소한의 샘플 데이터 수로, 과적합 제어에 사용하며 작게 설정할수록 분할 노드가 많아 과적합 가능성이 증가하게 된다. ‘min_sample_leaf’는 리프 노드(leaf node)의 최소한의 샘플 데이터 수를 의미하며, ‘min_samples_split’과 동일하게 과적합 제어에 사용된다.

3.3.2. 서포트 벡터 머신(Support Vector Machine)

서포트 벡터 머신(SVM)은 복잡한 분류와 회귀 문제를 해결하기 위해 수행되는 감독 기계학습 방법으로, 데이터를 선형으로 분리하는 최적의 초평면(hyperplane)을 찾아 최대 마진이 되도록 클래스를 구분하는 것을 목적으로 한다(Vapnik, 1995; Vapnik, 1998). 해당 기법은 다양한 데이터셋에서 잘 작동하며, 데이터 특성의 개수가 적어도 복잡한 결정경계 생성이 가능하다는 장점이 있다. 반면, 모델을 구축하는데 시간이 비교적 오래 걸리며, 데이터 전처리와 매개변수의 설정이 중요한 영향을 미친다는 단점이 존재한다.

SVM은 4가지 커널 함수가 있으며 이는 선형과 비선형으로 분리할 수 있다. 선형은 커널을 적용하지 않은 기본 함수인 Liner (LN)가 해당되며, 비선형은 주어진 데이터를 고차원 특징의 공간으로 분류하는 Polynomial (PL), Radial basis function (RBF), Sigmoid (SIG)가 해당된다. SVM 모델의 주요 하이퍼파라미터의 종류는 총 2가지로 다음과 같다. ’Cost’는 얼마나 많은 샘플이 다른 클래스에 놓이는 것을 허용하는지 결정하며 값이 클수록 적게 허용한다. ‘gamma’는 데이터 샘플이 영향력을 행사하는 거리는 결정하며 값이 클수록 작은 표준편차를 가진다.

3.3.3. K-최근접 이웃(K-Nearest Neighbor)

K-최근접 이웃(KNN)은 예측하려는 데이터와 설명 데이터 간의 거리를 측정하여 가장 가까운 K개의 데이터셋 레이블을 참조하여 분류 및 예측을 수행한다(Bansal et al., 2022). 해당 기법은 조정할 하이퍼파라미터의 수가 적어 비교적 단시간에 모델 생성이 가능하다는 장점이 있지만, 훈련 데이터셋이 너무 큰 경우 거리를 계산하는 양이 늘어나 예측 속도가 느려질 수 있다. 또한 설명 변수가 너무 많거나 대부분의 값이 0으로 구성된 데이터셋에서는 좋은 성능의 모델을 구축하기 어려운 단점이 있다. KNN 모델의 주요 하이퍼파라미터의 종류는 총 2가지로 다음과 같다. ‘n_neighbors’는 이웃의 수(K)로 데이터를 분류할 때 데이터 포인트 개수를 지정하는 요소이며, ‘p’는 데이터 간 거리를 나타내는 기준이다.

4. 결과 및 토의

4.1. 기계학습 데이터셋 구축

기계학습 기법별 모델을 구축하기 위해 먼저 샘플 데이터셋을 구축하였다. 샘플 데이터셋은 모델 학습 시 사용되는 훈련(training), 모델의 성능 평가하고 하이퍼파라미터 조정을 위해 사용되는 검증(validation), 최종 모델 성능을 평가하는 시험(test) 데이터셋으로 구분된다. 샘플 데이터셋은 침수위험분석 모델을 통해 최대 강우 사례(2016년 10월 5일 10시 50분)일 때 울산광역시 중구의 위험도 값을 도출한 뒤, 이를 등간격으로 5등급화 하여 격자별로 부여된 등급 값을 기반으로 구성되었다.

울산광역시 중구의 위험등급별 격자 수 분포는 Table 5와 같으며, 5등급에 해당하는 격자의 수가 가장 적어 해당 개수를 기준으로 1~4등급에 속하는 격자도 무작위로 추출하여 사용하였다. 태풍 차바 당시 최대 강우(2016년 10월 5일 10시 50분) 사례의 재난위험지도의 경우 1등급에 해당하는 격자가 존재하지 않는다. 따라서 1등급에 해당하는 격자는 태풍 차바 당시 최대 하천수위(2016년 10월 5일 13시 10분)2) 사례 기반으로 구축된 재난위험지도에서 데이터를 추출하여 사용하였다. 최종적으로 15,910개의 샘플 데이터셋이 구축되었다.

Table 5. Grid distribution by risk grade in Jung-gu, Ulsan (Unit: cell)

OGCSBN_2023_v39n5_2_771_t0005.png 이미지

훈련, 검증, 시험 데이터셋의 비율은 6:2:2이며, 이는 등급별·지역별 무작위로 추출하여 훈련 데이터셋은 9,540개, 검증과 시험 데이터셋은 각 3,185개이다. 종속변수는 격자별 위험등급(1~5) 값이며, 독립변수는 5개의 영향인자로 격자별 강우, 하천수위, 건물면적, 총 인구수, 토지피복 면적에 해당하는 값이 적용되었다.

4.2. 기계학습 모델 구축 및 검증

침수 관련 재난위험분석 모델은 파이썬(Python)을 기반으로 사이킷런(Scikit-learn) 라이브러리를 사용하여 구축하였다. 앞서 구축한 데이터셋을 사용하여 방법론별 하이퍼파라미터 값을 조정하지 않고 구축한 모델의 예측 정확도는 Table 6과 같다. 하이퍼파라미터를 기본값으로 적용한 결과, 모든 모델의 예측 정확도는 60~70%대 인 것으로 나타났다.

Table 6. Prediction accuracy of three models (Default) (Unit: %)

OGCSBN_2023_v39n5_2_771_t0006.png 이미지

각 모델의 성능을 확보하기 위해 조절하는 주요 설정 값인 하이퍼파라미터는 사용자가 직접 값을 설정해줌으로써 동일 데이터로 모델의 정확도를 높일 수 있다. 데이터의 종류, 유형, 형태 등에 따라서 모델 성능은 달라지기 때문에 정해진 하이퍼파라미터 값은 존재하지 않는다. 따라서 본 연구에서는 ‘GridSearch’ 기능을 이용하여 모델별 최적 하이퍼파라미터 값을 도출하였다. RF모델의 최적 하이퍼파라미터 값은 ‘n_estimator’와 ‘max_depth’는 각각 10, ‘min_samples_split’는 3, ‘min_sample_leaf’는 2로 나타났다. RBF 커널을 적용한 SVM 모델의 경우 ‘Cost’는 5000, ‘gamma’는 10-6, KNN모델의 경우 ‘n_neighbors’과 ‘p’는 모두 1이며, 해당 값을 반영하여 모델을 재 구축하였다. 하이퍼파라미터 최적화 후 예측 정확도는 Table 7과 같다. 세 모델 중 SVM의 예측 정확도가 91.05%로 성능이 가장 우수한 것으로 나타났으며, RF (83.08%), KNN(76.52%) 순서로 정확도가 높게 나타났다. 각 모델별로 살펴보면 SVM의 경우 기본값일 때 모델 정확도가 67.91%에서 최적화 후 91.05%로 23.14% 모델 성능이 향상되었으며, RF는 61.44%에서 83.08%로 21.64%, KNN은 64.68%에서 76.52%로 11.84%가 향상된 것을 확인할 수 있다.

Table 7. Prediction accuracy of three models (hyperparameter) (Unit: %)

OGCSBN_2023_v39n5_2_771_t0007.png 이미지

4.3. 재난피해 영향요인 우선순위 선정

트리 기반의 앙상블 모델인 RF 모델 구축 시 반영된 데이터 간의 중요도를 확인할 수 있다. 이를 인자 중요도(feature importance)라 하며, RF 분류 시에는 지니 중요도(Gini Importance)를 이용하여 각 요인의 중요도를 측정한다. 이는 지니 불순도(Gini Impurity)가 낮을수록 중요도가 높아지게 되는데, 지니 불순도는 해당 노드에 동질의 샘플 데이터가 구성되어 있을수록 낮아진다(Breiman et al., 1984).

하이퍼파라미터 최적화를 통해 도출된 값을 반영하여 구축한 모델의 영향요인별 중요도를 확인하였다. 침수 위험도 산출에 반영된 5개의 영향요인의 순위를 살펴보면, 가장 위험도에 높은 영향을 끼친 요인은 강우로 약 32.81%를 차지하고 있다. 2위는 하천수위로 약 32.76%에 해당하며, 실시간 정보에 해당하는 1, 2순위의 중요도가 거의 유사한 것을 확인하였다. 3위는 건물면적으로 약 20.16%, 4위는 총인구수로 약 10.67%, 5위는 토지피복 면적으로 3.61%의 중요도를 갖는 것으로 나타났다(Fig. 8).

OGCSBN_2023_v39n5_2_771_f0008.png 이미지

Fig. 8. Importance variables of RF model.

실시간 정보에 해당하는 강우와 하천수위가 전체 중요도 중 약 65%를 차지하는 것을 확인하였다. 해당 요인은 실제 침수와 관련된 재난이 발생했을 때 값의 변동성이 생기는 정보로 위험도의 변화에 가장 큰 영향을 미치는 것으로 나타났다. 특히 강우는 침수 재난의 직접적인 원인에 해당하는 기상현상으로 침수 위험도 산출에 반영된 영향요인 중 순위가 가장 높게 나타난 것으로 판단된다. 상대적으로 변하는 주기가 길며 변동성이 적은 3~5위에 해당하는 요인 중 3위인 건물의 특성을 살펴보면, 건물이 위치하고 있는 지면은 불투수면으로, 해당 면적이 넓을수록 지표면 유출을 증가시켜 수해 취약도가 높아지며, 이에 따라 태풍이나 홍수 발생 시 수해 피해가 증가하게 된다(Kong, 2017; Park and Shin, 2014; Oh et al., 2014). 따라서 총 인구수와 토지피복 면적에 비해 높은 중요도가 산정된 것으로 판단된다.

5. 결론

본 연구에서는 격자 기반의 침수위험지도 작성을 위해 기계학습별 모델을 구축하고 그 성능을 비교하였다. 2016년에 발생한 태풍 차바 사례를 기반으로 울산광역시 중구의 침수위험지도를 작성하기 위해 침수에 영향을 미치는 요인으로 강우, 하천수위, 건물, 인구, 토지피복 자료를 사용하였으며, 10 m크기의 격자 데이터로 구축하였다. 이를 리스크 매트릭스에 적용하여 격자별 산출된 위험도 값을 종속변수로, 5개의 영향인자 값을 독립변수로 하여 기계학습 모델을 구축하였다.

3개의 기계학습 모델(RF, SVM, KNN)을 비교한 결과, RBF 커널을 기반으로 구축한 SVM의 성능이 91.05%로 가장 우수하였다. 본 연구에서는 울산광역시 중구라는 특정 지역을 대상으로 시범 적용하였으나, 추후에는 연구대상 지역 범위를 확장하거나 타 지역을 대상으로 모델을 구축해 모델의 성능을 교차검증 할 수 있으며, 이를 활용하여 이후 전국 대상으로 실시간 정보를 반영한 전국 단위의 침수 관련 재난위험지도가 작성 가능할 것으로 판단된다.

트리 계열의 RF 모델을 통해 5개의 영향인자의 우선 순위를 확인한 결과, 실시간 정보인 강우와 하천수위가 가장 영향력이 높은 것으로 나타났다. 정적 데이터 중에서도 건물 면적은 3순위로 높은 영향도를 나타냈다. 해당 과정을 통해 도출된 결과는 추후 위험도 분석 시 가중치를 부여하는 기준으로 적용될 수 있으며, 높은 순위인 자료들을 토대로 해당 데이터의 특성을 고려해 추가로 영향 인자를 선별하여 반영할 수 있을 것으로 기대된다.

사사

본 연구는 행정안전부 국립재난안전연구원의 지원(재난안전정보기반 재난상황판단을 위한 인지기술 개발, NDMI-주요-2022-03-01)에 의해 수행되었습니다.

Notes

1) 대상유역의 토지이용상태, 식생피복처리상태, 수직배수능력을 나타내는 수문학적 조건 및 토양군의 종류 등에 따라서 결정되며, 환경부의 수치토지피복도와 국립농업과학원의 수치정밀토양도를 활용하여 우리나라 토지이용 형태에 적합한 유출곡선지수를 산정함(Ministry of Environment, 2019).

2) 2022년 국립재난안전연구원 연구과제 「공간 빅데이터 기반재난피해 영향요인 우선순위 선정기술 개발」의 일환으로, 태풍 차바 당시 최대 강우량을 기록한 2016년 10월 5일 10시 50분에 대한 침수 관련 재난위험지도와 최대 하천수위를 기록한 2016년 10월 5일 13시 10분에 대한 지도를 작성하였음.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Bansal, M., Goyal, A., and Choudhary, A., 2022. A comparative analysis of K-nearest neighbor, genetic, support vector machine, decision tree, and long short term memory algorithms in machine learning. Decision Analytics Journal, 3, 100071. https://doi.org/10.1016/j.dajour.2022.100071
  2. Breiman, L., 2001. Random forests. Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
  3. Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A., 1984. Classification and regression trees. Wadsworth International Group.
  4. Kang, Y. J., Wang, W., Lee, H., Kim, K. T., Kim, S., and Kin, H. S., 2021. Quantitative flood damage evaluation using grid-based spatial analysis data. Journal of the Korean Society of Hazard Mitigation, 21(6), 265-273. https://doi.org/10.9798/KOSHAM.2021.21.6.265
  5. Kong, H. L., 2017. A study on the change of impervious area ratio by the land use. Master's thesis, Seoul National University, Seoul, Republic of Korea. https://s-space.snu.ac.kr/handle/10371/130002
  6. Ministry of Environment, 2019. Flood estimation standard guideline. Ministry of Environment. https://me.go.kr/skin/doc.html?fn=20210830144318.pdf&rs=/upload_private/preview/
  7. Ministry of the Interior and Safety, 2017. 2016 disaster annual reports. Ministry of the Interior and Safety. https://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000014&nttId=59551#none
  8. Ministry of Land, Infrastructure and Transport, 2021. 2020 Urban planning status statistics. Ministry of Land, Infrastructure and Transport.
  9. National Disaster Management Research Institute, 2021. Optimizing visualization of factors affecting disaster damage using grid system (Publication No. 11-1741056-000333-01). National Disaster Management Research Institute. https://www.ndmi.go.kr/viewer/skin/doc.html?fn=9d9ea0d5f6d15d4a4c30b7245220f2ca&rs=/viewer/result/202310
  10. National Disaster Management Research Institute, 2022. Prioritizing factors affecting disaster risk using spatial big data (Publication No. 11-1741056-000 501-01). National Disaster Management Research Institute. https://www.ndmi.go.kr/home/sub.do?menukey=6040&mode=view&no=1514929&page=2
  11. Oh, S. K., Kim, K. H., and Lee, C. Y., 2014. A study on the development of GIS-based pervious/impervious mapping method for urban impervious area management. In Proceedings of the 2014 Conference on Geospatial Information, Incheon, Republic of Korea, Nov. 14-15, pp. 99-102.
  12. Park, C., and Shin, S. Y., 2014. Analyzing the flood reduction effects of urban impervious surfaces control. Seoul Studies, 15(1), 85-99. https://doi.org/10.23129/seouls.15.1.201403.85
  13. Ulsan Metropolitan City, 2021. 2021 Ulsan metropolitan city safety management plan (Publication No. 57-6310000-000144-10). Ulsan Metropolitan City. https://www.ulsan.go.kr/u/safe/bbs/view.do?bbsId=BBS_0000000000000036&mId=001002001001000000&dataId=92511
  14. Ulsan Metropolitan City, 2023. Ulsan Metropolitan City. Available online: https://www.ulsan.go.kr (accessed on Jan. 9, 2023).
  15. Vapnik, V., 1995. The nature of statistical learning theory. Springer.
  16. Vapnik, V., 1998. Statistical learning theory. Wiley.