DOI QR코드

DOI QR Code

Reinforcement Learning Model for Mass Casualty Triage Taking into Account the Medical Capability

의료능력을 고려한 대량전상자 환자분류 강화학습 모델

  • Byeongho Park (Department of Defense Science, Korea National Defense University) ;
  • Namsuk Cho (Department of Defense Science, Korea National Defense University)
  • Received : 2022.11.25
  • Accepted : 2023.01.26
  • Published : 2023.03.31

Abstract

Purpose: In the event of mass casualties, triage must be done promptly and accurately so that as many patients as possible can be recovered and returned to the battlefield. However, medical personnel have received many tasks with less manpower, and the battlefield for classifying patients is too complex and uncertain. Therefore, we studied an artificial intelligence model that can assist and replace medical personnel on the battlefield. Method: The triage model is presented using reinforcement learning, a field of artificial intelligence. The learning of the model is conducted to find a policy that allows as many patients as possible to be treated, taking into account the condition of randomly set patients and the medical capability of the military hospital. Result: Whether the reinforcement learning model progressed well was confirmed through statistical graphs such as cumulative reward values. In addition, it was confirmed through the number of survivors whether the triage of the learned model was accurate. As a result of comparing the performance with the rule-based model, the reinforcement learning model was able to rescue 10% more patients than the rule-based model. Conclusion: Through this study, it was found that the triage model using reinforcement learning can be used as an alternative to assisting and replacing triage decision-making of medical personnel in the case of mass casualties.

연구목적: 대량전상자 발생 시 신속하고 정확한 환자분류가 진행되어야 최대한 많은 환자를 회복시켜 전장으로 돌려보낼 수 있다. 그러나 복잡한 전투현장에서 적은 의료인력으로 대량전상자의 환자분류를 시행하기란 임무는 과다하고 환경은 불확실하다. 따라서, 전투현장에서 의료인력을 보조하고 대체할 수 있는 인공지능 모델에 대해 논의하고자 한다. 연구방법:인공지능의 한 분야인 강화학습을 활용하여 환자분류 모델을 제시한다. 모델의 학습은 무작위로 설정된 환자의 상태와 병원시설의 의료능력을 고려하여 최대 다수의 환자가 치료받을 수 있는 정책을 찾도록 진행된다. 연구결과:강화학습 모델이 정상적으로 학습되었음은 누적 보상 값 등을 통하여 확인하였고, 학습된 모델이 정확하게 환자를 분류하는 것은 생존자 수를 통해 확인하였다. 또한, 규칙 기반 모델과 비교하여 성능을 검증하였으며, 강화학습 모델이 규칙 기반 모델에 비해 약 10%만큼 더 많은 환자를 생존시킬 수 있었다. 결론:강화학습을 이용한 환자분류 모델은 의료인력의 대량전상자 환자분류 의사결정을 보조하고 대체하는 대안으로 활용 가능하다.

Keywords

서론

우크라이나-러시아 전쟁, 코로나19 감염병, 태풍 및 지진과 같은 자연재해, 세월호 및 10.29 참사와 같은 대형사고 등 예상치 못한 상황에서, 동시에 다수 사상자(Mass Casualty)의 발생은 우리 주변에서 언제든 나타날 수 있다. 다수의 사상자가 발생했을 때 의료능력이 부족할 경우, 모든 환자를 살려야 한다는 의료 기본원칙에서 환자의 생존율에 따라 생존자 수를 최대화하기 위한 방향으로 의료 시스템은 조정되어야 한다(Altevogt et al., 2009). 특히, 전쟁이나 재난, 대형사고의 경우 환자의 대부분은 외상환자이며, 외상환자는 적시에 적절한 치료를 제공받지 못하면 수 분에서 수 십분 내에 사망하게 된다(Townsend, 2021). 따라서 사상자 중 외상환자가 대부분인 경우는 정확하고 신속하게 치료와 후송의 우선순위를 선정하는 것이 최대 다수의 환자를 생존시킬 수 있는 방법이다. 이를 위한 첫 단추가 환자분류(Triage)이다.

환자분류란 환자의 중증도에 따라 환자의 후송과 치료 우선순위를 선정하여 분류하는 것을 의미한다(Lim et al. 2017). 현재 우리나라를 비롯한 대다수의 나라는 환자의 중증도에 따라 다수의 사상자를 4단계로 구분하는 START(Simple Treatment and Rapid Transport) 환자분류 기법을 활용하고 있다. 그러나 2000년대 이후에는 환자의 중증도와 더불어 환자 상태 악화 가능성, 가용한 의료능력 등을 복합적으로 고려하는 STM(Sacco Triage Method)이 생존율을 더 높게 한다고 발표되었다(Sacco et al., 2005). 과거에는 환자의 상태, 의료능력 등을 함께 고려하기에는 현장과 중앙통제부서와의 실시간 정보처리시스템(Real-time Processing System), 컴퓨팅 파워(Computing Power)가 부족했으나, 현재는 기술발전을 통해 현장과 컨트롤타워를 실시간 연결하는 시스템이 점차 구축되고 있는 추세이다.

여기에서 말하는 의료능력이란, 환자에게 제공되는 후송, 치료, 간호, 요양 및 재활 등 의료서비스의 수준을 일정 기간 지속적으로 유지할 수 있는 능력을 의미한다. 국방부 전쟁지속능력 평가 훈령에 따르면, 군은 현재 단위부대의 의료능력을 평가할 때 여러 가지 요인 중 의료시설의 병상 수, 후송지원 능력, 혈액 보유량의 3가지 요소로 의료능력을 판단한다.

군에서 발생하는 다수 사상자는 대량전상자라고 불린다. 최근 대량살상무기(Weapon of Mass Destruction)의 개발로인해 대량전상자가 발생할 가능성은 과거보다 높아지고 있다. 대량전상자가 발생하였을 경우 해당 부대의 의무부대에서 대량전상자처치반이 출동하게 된다. 대량전상자처치반은 일반적으로 군의관, 의무부사관, 의무병 등으로 구성되어있으며, 군의관은 전투의 성격에 따라 1~2명으로 구성된다. 여기서 군의관은 환자분류 뿐 아니라 환자평가, 응급처치, 지휘 임무를 동시에 수행한다.

전시 외상환자의 생존은 치료 속도를 유지하는 템포(Tempo)에 달려있다. 응급처치, 환자분류, 후송 등의 병원 전 응급의료 서비스(Emergency Medical Service, EMS)와 병원 내 응급실, 수술실, 회복실 등에 이뤄지는 각 단계의 의학적 판단과 조치의 템포 중 한 분야라도 느려진다면 환자는 사망하게 된다(Lee, 2018). 그러나 현장의 몇 안 되는 의료인에 의해 병원 전 응급의료서비스가 시행되어 외상환자를 골든아워(Golden Hour) 내에 병원으로 후송하기에는 의료인력의 임무는 과중하고, 매 순간 정확하고 신속한 의학적 판단을 내리기에는 전투현장은 너무 복잡하며 불확실한 공간이다.

본 연구에서는 전투현장에서 이루어지는 환자분류를 인공지능 기술의 한 분야인 강화학습(Reinforcement Learning)을 활용하여, 환자상태와 군 병원시설의 의료능력을 고려하여 환자분류 전략을 세우는 모델에 대해 논의한다. 본 모델은 AI-Triage라고 명명하였으며, AI-Triage는 환자 상태에 따라 가용한 후송자산, 병상, 필요한 혈액을 가지고 있는 병원으로 분류하여 최종적으로 최대의 환자를 생존시키도록 모델링(Modeling) 하였다.

본 연구의 구성은 다음과 같다. 2장에서는 문헌연구를 통해 환자분류 관련 선행연구와 본 연구와의 차이점을 도출하고, 3장에서는 강화학습 방법론에 대한 소개와 강화학습을 기반으로 한 환자분류 모델에 대해 소개한다. 4장에서는 강화확습으로 학습된 환자분류 모델의 실험 결과와 해석에 대해 설명하며, 5장에서는 Case Study를 통해 규칙기반 모델과 강화학습 모델에 대해 비교한다. 마지막 6장에서는 결론 및 향후 연구에 대해 설명한다.

문헌연구

본 장에서는 일반적인 환자분류 기법과 인공지능 방법론을 활용한 환자분류 기법 사례를 살펴본다. 환자분류는 프랑스 나폴레옹 시절 외과의사인 Dominique Jean Larrey에 의해 발명되었다. 이후, 환자분류는 환자가 발생한 상황과 환자 상태, 악화 가능성, 의료능력 등을 고려하여 다양한 기법으로 발전되었으며 최근에는 인공지능을 활용한 환자분류 모델 연구가 진행되고 있다.

환자분류를 시행하는 장소는 대량환자가 발생한 현장 또는 응급실이다. 환자분류 과정을 통해 의료인은 환자의 중증도와 생존율에 따라 환자를 등급별로 분류하여 치료의 효율성을 높일 수 있다. 이 과정에서 중상자와 경상자를 정확하게 분류해내면, 환자들이 이용 가능한 병원의 의료능력을 고려하여 적절히 분산 배치될 수 있다(Ahn et al., 2015). 환자분류는 사용되는 장소에 따라 의미적 차이가 있다. 응급실에서 환자분류는 가장 심각한 환자를 찾아서 먼저 치료를 제공하는 것으로 생존율이 낮아도 상태가 가장 심각하면 집중적인 치료를 먼저 받게 된다. 그러나 전쟁이나 재난, 사고현장에서 시행하는 환자분류는 응급실에서 시행하던‘가장 불안정한 상태의 환자를 먼저 치료’하던 방식에서 ‘최대다수 환자에게 최선의 의료를 제공’하는 방식으로 패러다임이 전환되어 시행된다. 즉, 전쟁, 재난, 사고현장에서 환자분류는 간단하고 즉각적인 치료를 통해 생존확률이 높은 환자를 찾아내는 것이다(Yoo, 2015).

환자는 일반적으로 긴급(Immediate), 응급(Urgent), 비응급(Delayed), 사망(Dead)과 같이 4단계 또는 응급을 응급(Urgent)과 준 응급(Semi-Urgent)으로 나눈5단계로 구분된다. 세계적으로 많이 활용되는 환자분류 기법은 1980년대 개발된 START 기법이며(Super et al., 1983), START 외에도 SAVE(Secondary Assessment of Victim Endpoint), SALT(Sort, Assess, Lifesaving interventions, Treat), STM(Sacco Triage Method) 등이 있다. 한국군을 비롯한 미군, 나토군(NATO)은 START 기법(Janousek et al., 1999)을 기반으로 한 4단계 분류를 시행 중이며, 군에서 환자분류 기법은 대부분 환자의 중증도에 따라 긴급, 응급, 비응급 등의 각 그룹으로 구분하는 방법이다. 2000년대 이후 연구에서는 환자 중증도에 따라 그룹을 지정하는 START기법보다, 환자 개인별로 점수를 부여하는 STM(Sacco Triage Method)이 환자 생존율을 더 높게 한다고 발표되었다(Sacco et al., 2007). 9·11테러 이후 개발된 STM은 의료자원이 제한된 상황에서 환자의 생리학적 상태와 악화 가능성, 환자의 치료 시기와 의료자원, 치료 및 후송 시간에 따라 점수를 부여한다. STM을 활용하기 위해서는 소프트웨어 지원과 환자데이터, 의료자원의 가용성에 대한 정보가 실시간으로 처리되어야 한다. 과거에는 이러한 체계를 구축하는 데 어려움이 있었으나, 최근에는 IoT(Internet of Things) 기술의 발달로 STM에 대한 연구가 많이 진행되고 있다.

다양한 연구에서 STM이 START보다 정확도가 높으며 더 많은 환자를 살릴 수 있다고 제시했다(Jenkins et al., 2012). STM의 가장 큰 장점은 정확한 근거를 통해, 환자를 분산배치 할 수 있다는 것이다. 분산배치는 환자집중을 방지한다. 또한 환자의 중증도에 따라 필요한 병상과 투입되는 의료물자가 달라지게 되는 데 현재 가용한 병상, 의료인, 수술실, 의무물자 등에 따라 치료 가능한 환자와 제한되는 환자가 구분되어, 병원에 도착하여도 치료를 받지 못하는 상황을 예방할 수 있다. 그럼에도 불구하고 기존 선행연구에서는 환자상태는 현재 상태, 악화될 가능성 등 정확한 정보를 입력하는 반면, 치료시설의 능력은 ‘1시간 내 치료 가능’ 등으로 단순하고 압축적인 정보를 활용한다. 이는 환자 100명에게 군 의료능력 평가 방법과 같이 3가지의 고려 요소만 반영하더라도 3¹⁰⁰번의 환자분류 결정을 해야 하는 소요가 발생하기 때문이다. 현재 환자분류 기법의 최초 개발은 군이었지만, 이후 연구는 대부분 민간에서 활발하게 진행되었다. 군과 민간의 가장 큰 차이는 환자의 수와 가용한 자원에서 차이가 크게 난다. 민간에서 대량 사상자는 재난, 사고 등이 원인일 때 발생한다. 이때는 전쟁에 비해 비교적 사상자의 수도 적고, 가용한 의료자산이 여유가 있다. 즉, 민간의 대량 사상자의 경우 세부적으로 의료능력을 판단하지 않아도 적절한 수준으로 통제가 가능한 반면, 군의 대량전상자는 동시에 해당 부대의 의료능력을 초과하여 발생할 가능성이 민간보다 크다. 따라서 군에서는 의료능력을 세부적으로 판단해야 환자를 1명이라도 더 살릴 수 있다. 본 연구는 다양한 환자분류 선행연구 중에서, 환자의 상태와 병원시설의 의료능력을 고려하여 대량전상자를 적절하게 분산배치가 가능한 STM을 바탕으로 환자분류를 논의한다.

본 연구에서 의료능력을 고려한 환자분류는 인공지능을 활용하여 모델링 된다. 환자분류에 인공지능을 접목한 선행연구는 다음과 같다. Razzaki et al.(2018)는 지도학습(Supervised Learning)을 통해 개발된 AI 환자분류 및 진단모델이 의사와 비슷한 수준임을 제시하였고, Andrew et al.(2021)는 코로나19 증상 데이터 기반 지도학습을 통해 코로나19 감염 여부를 진단 및 분류하는 모델을 제시하였다. Nicholas et al.(2022)는 화학물질로 인해 발생한 대량 사상자의 증상 및 징후 데이터를 인공신경망(Artificial Neural Networks)을 통해 차원 축소하여 환자분류하는 모델을 개발하였으며, Raita et al.(2019)는 응급실에서 환자 증상에 따라 중환자, 일반환자, 사망을 지도학습 모델로 예측하였다. 병원 전 단계에서 시행되는 환자분류에 대한 인공지능 연구는 Kim et al.(2018)이 웨어러블 장비에서 입력되는 데이터를 기반 환자분류에 대한 연구를 진행하였으며, Kang et al.(2020)은 약9백만 명의 데이터 기반으로 한 딥러닝알고리즘을 통해 중환자 치료 필요성을 예측하는 모델을 제시하였다. Abe et al.(2022)는 병원 전에 두개내출혈 환자를 분류하는 지도학습 모델을 제시하였다. 현장에서의 환자분류 관련 연구는 대부분 데이터를 기반으로 한 연구였으며, 데이터 프리(Data Free) 방법론인 강화학습을 활용한 연구는 전무하였다.

본연구는 과학적인 환자분류 기법으로 최대 다수의 환자를 생존시키는 모델 구현을 목표로 진행되었으며, 기여점은다음과같다. 첫째, 대량전상자가 발생한 현장에서 시행되는 환자분류에 인공지능을 적용한 최초의 연구이다. 여기에서 제시하는 AI-Triage는 대량전상자 발생 시 부족한 의료인력을 보조 및 대체하기 위한 대안으로 활용이 가능하다. 특히, 군에서는 환자분류가 어떻게 되냐에 따라 생존시킬 수 있는 환자 수가 변화되고, 회복하여 전장에 다시 투입될 병력의 수가 결정된다. 따라서신속하고 정확한 환자분류가 반드시 필요하며, 인공지능은 근거를 바탕으로 객관적인 판단을 빠르게 할 수 있는 대안이 된다.

둘째, 기존 연구된 STM은 ‘치료가능 유무’와 같이 단일 값으로 의료능력의 정보를 입력받는 반면, 본 연구에서는 Fig. 1과 같이 후송자산과 병상, 혈액보유량의 3가지 의료능력 정보를 입력받아 판단한다. 제공된 정보를 바탕으로 생존자 수를 최대로 하는 환자분류 전략을 수립한다.

JNJBBH_2023_v19n1_44_f0001.png 이미지

Fig. 1. Conceptual diagram of the study

셋째, 인공지능을 적용한 환자분류는 대부분이 지도학습을 활용하였다. 지도학습의 경우 기존 사례, 데이터 등이 필요하지만, 군의 대량전상자와 관련된 환자 데이터와 군 병원의 의료능력 데이터를 확보하기란 제한적이다. 따라서 본 연구에서는 현실과 유사한 환경이 구축되면 학습이 가능한 강화학습을 기반으로 개발되었다.

방법론

이번 장에서는 AI-Triage 모델에 적용된 강화학습 알고리즘 및 구성요소에 대해 알아본다. 구성요소에는 에이전트(Agent), 환경(Environment), 행동(Action), 보상(Reward), 상태(State)의 정의를 포함하여 설명한다.

강화학습은 기계학습의 한 영역으로, 에이전트가 특정한 환경에서 어떤 행동을 하게 되면 행동 결과에 따라 상태가 변화되며 보상을 받게 된다. 이러한 과정의 반복적인 시행착오를 통해 목표를 달성하는 최적의 정책을 찾는 학습과정이다. 이는 마코프 결정과정(Markov Decision Process)을 이용하여 수학적으로 모델링이 가능하다(Sutton, 2018).

본 연구에서는 강화학습 알고리즘 중 하나인 Open AI의 PPO(Proximal Policy Optimization)를 활용하였다. PPO 알고리즘은 대표적인 강화학습 알고리즘 중 하나이며, 다른 알고리즘에 비해 쉬운 구현으로 우수한 성능을 보이기 때문에 널리 활용된다(Schulman et al., 2017). 모델 환경은 게임 개발환경을 제공하는 게임엔진이자, 가상현실 등 인터랙티브(Interactive) 제작 도구(Tool)인 유니티3D(Unity 3D)를 활용해 구축하였다. 또한 유니티 내부의 강화학습 패키지 ML-Agents를 활용하였다. ML-Agents는 유니티에서 구축한 환경과 파이썬(Python)의 기계학습 라이브러리(Library)와 서로 연결시켜 학습이 되도록 이어주는 툴킷(Toolkit)이다. 유니티에서 구현되는 AI-Triage 모습의 예는 Fig. 2와 같다.

JNJBBH_2023_v19n1_44_f0002.png 이미지

Fig. 2. AI-Triage model in unity 3D

본 연구의 가정사항은 다음과 같다. 첫째, 환자의 상태에 따라 점수가 부여되어 있고 모두 입원이 필요한 환자이다. 둘째, 의료시설의 능력이 해당 환자를 치료할 수 있는 조건이 맞는다면 환자는 생존한다. 셋째, 의료능력은 병상, 후송자산, 혈액 3가지로 판단된다.

AI-Triage의 전체적인 구성은 Fig. 3과 같다. 에이전트는 군의관이며, 환경에서 에이전트가 관찰하는 것은 환자상태와 의료능력이다. 환자상태의 정보는 크게 중상자, 경상자로 구분되며 이는 점수로 입력된다. 의료능력은 병상(중환자실, 일반병상), 후송자산, 혈액 보유량이다. 각 환자의 상태에 따라 필요한 병상과 혈액의 양이 정해져 있다. 환경의 정보를 관찰한 에이전트는 3가지 행동 중 하나를 선택하게 된다. 첫째는 A병원으로 분류, 둘째는 B병원으로 분류, 셋째는 미분류 하는 행동이다. 이 행동의 결과에 따라 에이전트는 보상을 받게 되며, 환자 수와 후송자산, 병상, 혈액의 상태는 변하게 된다. 이 과정을 반복하여 가장 최적의 환자분류 정책을 학습하게 된다.

JNJBBH_2023_v19n1_44_f0003.png 이미지

Fig. 3. AI-Triage model

학습의 결과는 Fig. 4와 같이 도출된다. 학습이 잘 되었을 경우에는 환자상태와 의료자산을 고려해서 왼쪽 그림과 같이 적절한 분산배치가 이루어지며, 학습이 잘되지 않으면 오른쪽 그림과 같이 특정 병원에 환자가 집중되거나, 환자를 치료할 수 있는 능력이 부족한 병원에 환자를 후송시키는 경우가 발생한다.

JNJBBH_2023_v19n1_44_f0004.png 이미지

Fig. 4. Expected learning results

이어서 강화학습 모델의 에이전트, 환경, 상태, 행동, 보상에 대해 설명한다. 먼저 환경은 환자, 후송자산(구급차), 병상, 혈액 보유량이며, Table 1과 같이 구성되었다. 여기서 환자의 상태와 점수는 학습 간 임의로 부여되는 모수(Parameter)이다. 이번 연구의 목적이 발생한 환자에 대해 의료능력을 고려하여 분류하는 방법에 대한 논의를 하는 것이기 때문에, 부여된 환자의 상태와 점수는 치료받기 위해 얼만큼의 의료능력이 필요한지에 대한 단순 기준으로만 활용된다. 예를 들어 60점의 경상자는 구급차 1대, 혈액은 2unit이 필요하며, 중환자실 또는 일반병상에 모두입원이 가능하다.

Table 1. Environments in reinforcement learning

JNJBBH_2023_v19n1_44_t0001.png 이미지

전체 환경은 에피소드(Episode)가 종료될 때 초기화되며, 환자의 상태는 각 에피소드마다 무작위로 변경된다. 본 모델은 각 에피소드마다 환자 50명이 랜덤한 상태로 시작된다. 의료능력은 고정값을 가지며, A와 B로 구분되는 2개의 병원이 있다. A병원은 중환자실 20개, B병원은 일반병상 20개를 보유하고 있고, 혈액은 A병원이 50unit, B병원이 15unit을 보유하고 있다. 구급차는 총40대가 가용하여 40명을 후송시킬 수 있다.

상태는 에이전트가 각 환자에 대한 행동을 할 때마다 변하게 된다. 첫 번째 환자를 중환자실로 분류할 경우 전체 환자 수와 후송자산, 중환자실 병상은 1단위가 감소 되며, 혈액은 환자에 해당되는 유닛만큼 감소된다.

행동은 군의관 에이전트가 하게 되는 환자분류 결정으로, 이산적 행동을 하게 된다. 에이전트가 취할 수 있는 행동은 식(1)과 같으며, 행동은 보상을 더 많이 주는 방향으로 갱신되게 된다. 미분류는 각 병원으로 분류되지 않아 후송되지 않을 환자를 선택하는 행동이다.

\(\begin{aligned}\text {Action}=\left\{\begin{array}{l}A \text { 병원으로 분류 } \\ B \text { 병원으로 분류 } \\ \text { 미분류 }\end{array}\right.\end{aligned}\)       (1)

보상은 식(2)와 같다. 환자 상태에 따라 치료가 가능한 병원으로 분류되면 생존한다고 가정하여 보상을 받으며, 중상자가 경상자보다 더 큰 보상을 받아 중상자를 먼저 분류하게 끔 모델링하였다. 가용한 구급차보다 더 많은 환자를 분류하거나, 혈액이 부족함에도 분류한 경우에는 페널티를 받게 된다.

\(\begin{aligned}\text {Reward}=\left\{\begin{array}{ll}1.0, & \text { 중상자 생존 } \\ 0.5, & \text { 경상자 생존 } \\ -1.1, & \text { 분류된 환자 수 }>\text { 후송자산 수 } \\ -1.0, & \text { 환자 분류 되었으나, 보유한 혈 액 }=0\end{array}\right.\end{aligned}\)       (2)

연구결과 및 분석

본 장에서는 AI-Triage 모델의 실험결과에 대해 설명한다. 모델은 Unity 3D (ver 2021.3.1.f1)로 구현하였으며, 모든 실험은 CPU 1.80GHz, RAM 16.0GB의 컴퓨터 환경에서 진행하였다.

학습은 총500,000회 진행하였다. 최초1~2,000회의 평균 보상값은 11.535였고, 표준편차는 21.821이었다. 이후 498,000~500,000회의 평균 보상값은 25.103으로 최초 보상값보다 13.568만큼 증가하였으며, 표준편차는 4.358로 최초 표준편차보다 17.463만큼 감소하였다.

강화학습의 결과는 누적 보상값(Cumulative Reward)과 엔트로피(Entropy)를 시각화하여 학습이 잘 되었는지 분석한다. Fig. 5(a)는 한 에피소드가 진행되는 동안 에이전트가 받은 보상과 페널티의 누적값이다. 최초빠르게 증가하다가 중간에 감소하는 구간이 있지만, 전체적으로 증가하는 패턴을 보인다. Fig. 5(a)를 통해 보상값을 최대로 하는 방향으로 학습이 진행되고 있음을 알 수 있다. Fig. 5(b)는 엔트로피값이며, 본 모델이 학습하면서 에피소드마다 에이전트의 행동을 얼만큼랜덤하게 선택하는지를 나타낸다. 값이 클수록 더 랜덤하게 행동을 선택하는 것이며, 이는 강화학습 과정 중 에이전트가 탐험(Exploration)을 통해 더 큰 보상값을 찾는 과정에서 나타나는 값이다. 탐험을 통해 현재의 보상값에 따라 행동하지 않고, 새로운 행동을 하면서 더 큰 보상값을 찾게 된다. 엔트로피값은 학습과정에서 최적의 정책을 찾으면 더 이상 탐험을 하지 않고 기존의 정책을 따르게 되어 점차 감소하는 패턴을 보인다.

JNJBBH_2023_v19n1_44_f0005.png 이미지

Fig. 5. Reinforcement learning results graph (1)

Fig. 6의 손실값 그래프를 통해 강화학습 모델이 학습방향이 올바른지 확인할 수 있다. Fig. 6(a) Policy Loss 값은 PPO 알고리즘이 이전 정책에서 다음 정책으로 업데이트할 때 어느 정도 업데이트를 하는지의 기준이다. 정상적인 학습과정에서 Policy Loss는 1.0 이하에서 진동하는 패턴을 보인다. Fig. 6(b) Value Loss 값은 보상값이 증가하면 같이 증가하다가, 이후 보상값이 안정화되면 감소하는 패턴을 보인다. 본 모형은 초기 10,000회까지 증가하다 급격히 감소하여, 400,000회 이후에는 0에 수렴하고 있다.

JNJBBH_2023_v19n1_44_f0006.png 이미지

Fig. 6. Reinforcement learning results graph (2)

강화학습의 평가지표인 누적 보상값, 엔트로피, 손실함수 그래프를 통해 학습이 잘 이뤄졌음을 확인하였다. 다만, 이것은 기술적인 분석이고, 실제로 에이전트가 올바른 행동을 하고 있는지 알 수 있는 지표 선정이 필요하다. 따라서, 효과척도(Measure of Effectiveness, MOE)로 생존자 수를 선정하여 본 모델이 환자를 의료능력에 맞게 분류하고 있는지를 확인하였다. Fig. 7(a)와 같이 생존자 수는 학습 중 부분적인 감소 구간이 있지만 전체적으로 증가하고 있다. 학습 초기에 많은 생존자수를 보이거나, 학습이 어느 정도 진행된 후에도 적은 생존자 수를 보이는 지점은 모델이 탐험을 통해 더 큰 보상값을 찾는 과정 중 발생하거나, 환자가 각 에피소드마다 랜덤한 상태로 생성됨에 따라, 해당 에피소드에서 살릴 수 있는 환자 자체가 적은 경우이다. Fig. 7(b)와 같이 누적 보상값과 생존자 수를 정규화하여 비교함으로써 보상값과 생존자 수 모두 학습이 진행됨에 따라 증가하는 것을 확인할 수 있었다.

JNJBBH_2023_v19n1_44_f0007.png 이미지

Fig. 7. The number of survivors graph

Case Study

기존에 강화학습을 활용한 환자분류 모델이 있다면 AI-Triage와 비교를 통해 성능을 평가할 수 있겠지만, 기존 모델이 없기 때문에 동일한 방법론 간의 비교 평가가 제한된다. 그러나 환자상태와 의료능력을 동시에 고려한 환자분류는 강화학습이 유일한 방법론은 아니기 때문에 다른 방법론을 활용하여 비교 평가를 진행한다.

본 장에서는 환자의 상태와 의료능력을 고려하여 환자를 분류하는 규칙기반 모델(Rule-Based Model)을 소개하고, 이를 강화학습 모델인 AI-Triage와 성능을 비교한다. 비교를 위해 연구가자 만든 환자분류의 규칙기반 모델은 Fig. 8과 같다. Fig. 8은 현재의 대량전상자처치반이 현장에 출동하여 시행하는 환자분류에서 의료능력을 의사결정과정에 추가한 것이다. Fig. 8의 규칙기반 모델은 한편으로는 현재 군이 채택하고 있는 환자분류 방법과 개념적으로 같다.

JNJBBH_2023_v19n1_44_f0008.png 이미지

Fig. 8. Flowchart of Rule-Based model

규칙기반 모델은 강화학습 모델과 동일한 논리에 따라 환자상태와 병상, 후송자산, 혈액보유량의 의료능력을 고려하여 환자를 분류한다. 강화학습 모델과 같이 환자별 상태는 정해져 있고 이를 가용한 의료능력에 따라 분류하게 된다.규칙기반 모델은 입력되는 환자 순서에 따라 후송 가능 여부를 판단하여 후송결정을 한다. 이후 환자상태에 맞는 가용병상과 혈액의 보유량에 따라서 분류 결정을 내린다.

규칙기반 모델과 강화학습 모델의 시뮬레이션은 동일한 환경에서 진행되었으며 결과는 Table 2, Table 3과 같다. Table 2와 Table 3은 다음과 같이 해석된다. 환자는 총 50명으로 중상자 25명, 경상자 25명이 무작위로 1~50번 순서로 편성되었으며, 환자분류는 순서대로 진행된다. 각 병원의 의료능력은 A병원이 20개의 중환자실과 50unit의 혈액을 보유하고 있으며, B병원은 20개의 일반병상과 15unit의 혈액을 보유하고 있다. 사용 가능한 구급차는 총40대이다. 마지막 열의 ‘분류결과’는 최종적으로 환자가 분류된 병원을 의미하며, (-)는 병원으로 분류되지 않은 환자이다.

Table. 2. Simulation result of Rule-Based model

JNJBBH_2023_v19n1_44_t0002.png 이미지

JNJBBH_2023_v19n1_44_t0007.png 이미지

Table. 3. Simulation result of reinforcement learning model

JNJBBH_2023_v19n1_44_t0003.png 이미지

JNJBBH_2023_v19n1_44_t0008.png 이미지

동일한 환경에서 발생한 환자를 규칙기반 모델로 분류한 결과, 생존자 수는 규칙기반 모델이 23명이며 중상자가 13명, 경상자가 10명이었다. 같은 환경에서 강화학습으로 분류한 결과 총27명이 생존하였으며, 중상자가 15명, 경상자가 12명 생존하여 규칙기반 대비 8% 더 많은 환자를 생존시켰다.

환자 구성을 무작위로 변경해가며 이와 같은 실험을 반복하여 진행하였다. 반복 실험은 Table. 2, Table. 3과 같은 방법으로 총10회 진행하였으며 결과는 Table 4와 같다. 반복 실험을 통해 환자의 상태가 무작위로 바뀌어 중상자와 경상자 수가 변경되어도 강화학습 모델이 규칙기반 모델에 비해 더 많은 환자를 생존시킬 수 있음을 확인하였다. 환자의 구성에 따라 다르지만, 50명 환자 기준으로 생존자 수의 점추정 값은 규칙기반 모델이 23.4명, 강화학습 모델이 28.2명이었고, 95% 신뢰구간에서 규칙기반 모델은 [20.53, 26.27], 강화학습 모델은 [25.25, 31.14]로 나타났다.

Table 4. Results of repeated experiments

JNJBBH_2023_v19n1_44_t0006.png 이미지

이와 같은 결과가 도출된 이유는 규칙기반 모델은 입력되는 순서대로 환자를 분류하기 때문에 현재 환자 이후 다른 환자에 대해서는 어떠한 상태인지 알기 어렵기 때문이다. 규칙기반 모델은 발생한 전체 환자를 고려하여 무엇이 더 많은 환자를 살리기 위한 방법인지 실시간으로 계산하기에는 제한적이다. 다만, 규칙기반 모델을 최초 분류 후 다른 환자들의 상태를 고려하여 재분류를 반복하는 방법으로 개선된다면 생존자 수는 높아질 수 있다. 그러나 강화학습은 미리 학습되어 환자상태와 의료능력 정보만입력하면 실시간으로 분류되는 반면, 규칙기반 모델은 매번새롭게 계산이 필요하므로 시간이 상대적으로 오래걸린다는 단점이 있다. 재분류를 위해 모델의 복잡도가 높아진다면 시간이 더 소요될 뿐 아니라, 복잡한 전투현장에서 실행되기에는 더욱 제한적이다. 결론적으로 전투현장에서 강화학습 모델이 규칙기반에 비해 유용하게 적용될 수 있다.

결론 및 향후연구

본 연구는 대량전상자 발생 시 환자분류에 대한 이론적 배경을 설명하고, Unity 3D를 사용해 대량전상자 발생 환경을 구축하여 강화학습을 통해 에이전트를 학습시켰다. 학습과정에서 누적 보상값이 증가함과, 생존자 수가 점차 증가하는 것을 통해 모델의 학습이 잘 진행되었음을 확인하였다. 또한 규칙기반모델과 비교분석을 통해 강화학습 모델의 성능을 확인하였다.

대량전상자처치반이 임무수행하는 현장은 병원시설이 아니기 때문에 매우 복잡하고 불확실한 환경이다. 혼잡한 상황에서 환자처치 및 분류를 해야하는 군의관을 비롯한 의료인력은 턱없이 부족하고 임무는 너무 과중하다. 이들이 합리적인 의사결정을 할 수 있는 여건이 보장되어야 정확하고 신속한 환자분류가 진행될 수 있다. 또한, 미래 군 의료시스템은 IoT를 기반으로 환자발생 현장에서부터 단위부대의 지휘통제실까지 실시간으로 연결될 것이다. 이러한 변화를 통해 대량전상자가 발생한 현장과 군 병원이 실시간으로 연결된다면, 인공지능 환자분류 모델의 실현이 가능할 것이다. AI-Triage는 대량전상자 상황에서 부족한 의료인력을 보조 및 대체할 수 있으며, 신속하고 정확한 분류를 통해 기존보다 더 많은 환자를 살릴 수 있을 것이다.

본 연구의 제한점과 향후 연구방향은 다음과 같다.

첫째, 환자의 최초 상태가 정해져서 발생하는 것이 아니라, 활력징후와 증상에 따른 환자분류부터 학습이 필요하다. 둘째, 의료능력을 평가하는 요소가 현재의 병상, 후송자산, 혈액보유량에서 의료인력, 수술실 수 등 다양한 요소가 추가되어야 한다. 더욱 세분화된 요소가 고려될수록 환자의 생존율은 높아진다. 셋째, 강화학습의 PPO 알고리즘 외 A2C, DQN 등의 알고리즘을 적용 및 비교하여 본 문제를 해결하는 최적화된 알고리즘을 찾아 환자분류 속도와 정확도를 향상시켜야 한다.

제한된 의료자원 속에서 환자 치료속도의 템포를 유지하기 위해서는 매 순간 정확하고 신속한 의사결정이 이루어져야 한다. 인공지능이라는 의사결정 보조자를 옆에 두고 환자의 치료가 진행된다면, 환자발생 현장에서부터 병원까지 더 빠르고, 더 정확한 치료가 가능할 것이다.

References

  1. Abe, D., Inaji, M., Hase, T., Takahashi, S., Sakai, R., Ayabe, F., Tanaka, Y., Otomo, Y., Maehara, T. (2022). "A prehospital triage system to detect traumatic intracranial hemorrhage using machine learning algorithms." JAMA Network Open, Vol.5, No.6, e2216393.
  2. Ahn, C.-W, Lim, T.-H. (2015). "Emergency medical services in disasters." Hanyang Medical Reviews, Vol. 35, No. 3, pp. 136-140. https://doi.org/10.7599/hmr.2015.35.3.136
  3. Altevogt, B.M, Gostin, L.O., Hanfling, D., Hanson, S.L., Stroud, C. (2009). Guidance for Establishing Crisis Standards of Care for Use in Disaster Situations. National Academies Press a Letter Report. US.
  4. Boltin, N.D., Culley, J.M., Valafar, H. (2022). "Application of dimensional reduction in artificial neural networks to improve emergency department triage during chemical mass casualty incidents." arXiv preprint arXiv, 2204.00642
  5. Janousek, J.T., Jackson, D.E., De Lorenzo, R.A., Coppola, M. (1999). "Mass casualty triage knowledge of military medical personnel." Military Medicine, Vol. 164, No. 5, pp. 332-335. https://doi.org/10.1093/milmed/164.5.332
  6. Jenkins, J.L., McCarthy, M.L., Sauer, L.M., Green, G.B., Stuart, S., Thomas, T.L., Hsu, E.B. (2008). "Masscasualty triage: Time for an evidence-based approach." Prehospital and Disaster Medicine, Vol. 23, No. 1, pp. 3-8. https://doi.org/10.1017/s1049023x00005471
  7. Kang, D.Y., Cho, K.J., Kwon, O., Kwon, J.M., Jeon, K.H., Park, H. (2020). "Artificial intelligence algorithm to predict the need for critical care in prehospital emergency medical services." Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine, Vol. 28, No. 1, pp. 1-8. https://doi.org/10.1186/s13049-019-0696-1
  8. Kim, D., You, S., So, S., Lee, J., Yook, S., Jang, D.P., Park, H.K. (2018). "A data-driven artificial intelligence model for remote triage in the prehospital environment." PLoS One, Vol. 13, No. 10, e0206006.
  9. Lee, K.-J. (2018). Golden Hour 1. Heuleum Publishing Inc, South
  10. Lim, G.-S, Hwang, S.-O. (2017). Rescue and Emergency Care. 8th ed, KoonJA Publishing Inc. South
  11. Raita, Y., Goto, T., Faridi, M.K., Brown, D.F., Camargo, C.A., Hasegawa, K. (2019). "Emergency department triage prediction of clinical outcomes using machine learning models." Critical Care, Vol. 23, No. 1, pp. 1-13. https://doi.org/10.1186/s13054-018-2293-5
  12. Razzaki, S., Baker, A., Perov, Y., Middleton, K., Baxter, J., Mullarkey, D., Johri, S. (2018). "A comparative study of artificial intelligence and human doctors for the purpose of triage and diagnosis." arXiv preprint arXiv, 1806.10698.
  13. Sacco, W., Navin, M., Fiedler, K. (2005). " Precise formulation and evidence based application of resource constrained triage." Academic Emergency Medicine, Vol. 12, No. 8, pp. 759-770. https://doi.org/10.1111/j.1553-2712.2005.tb00944.x
  14. Sacco, W.J., Navin, D.M., Waddell, R.K., Fiedler, K.E., Long, W.B., Buckman Jr, R.F. (2007). "A new resource constrained triage method applied to penetrating-injured victims." Journal of Trauma and Acute Care Surgery, Vol. 63, No. 2, pp. 316-325. https://doi.org/10.1097/TA.0b013e31806bf212
  15. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. (2017). "Proximal policy optimization algorithms." arXiv preprint arXiv, 1707.06347.
  16. Soltan, A.A., Kouchaki, S., Zhu, T., Kiyasseh, D., Taylor, T., Hussain, Z.B., Peto, T., Brent, A.J., Eyre, D.W., Clifton, D.A. (2021). "Rapid triage for COVID-19 using routine clinical data for patients attending hospital: Development and prospective validation of an artificial intelligence screening test." The Lancet Digital Health, Vol. 3, No. 2, pp. 78-87. https://doi.org/10.1016/S2589-7500(20)30274-0
  17. Super, G., Groth, S., Cleary, V. (1983). START: A Training Triage Module. Hoag Presbyterian Memorial Hospital, Newport Beach, CA.
  18. Sutton, R.S., Barto, A.G. (2018). Reinforcement Learning: An Introduction, Second Edition, J-Pub, US.
  19. Townsend, C.M. (2021), Sabiston Textbook of Surgery. 21th ed. US.
  20. Yoo, M.-R. (2015). Disaster Nursing Practice. Sumunsa. South Korea.