DOI QR코드

DOI QR Code

A Design and Implementation of The Deep Learning-Based Senior Care Service Application Using AI Speaker

  • Mun Seop Yun (Dept. of Electronic Telecommunication, Chonnam National University) ;
  • Sang Hyuk Yoon (Dept. of Software, Korea Aerospace University) ;
  • Ki Won Lee (Dept. of Food and Resource Economics, Korea University) ;
  • Se Hoon Kim (Dept. of Electrical & Computer Engineering, Seoul National University) ;
  • Min Woo Lee (Dept. of Data Science, Suwon University) ;
  • Ho-Young Kwak (Dept. of Computer Engineering, Jeju National University) ;
  • Won Joo Lee (Dept. of Computer Science & Engineering, Inha Technical College)
  • Received : 2024.03.25
  • Accepted : 2024.04.19
  • Published : 2024.04.30

Abstract

In this paper, we propose a deep learning-based personalized senior care service application. The proposed application uses Speech to Text technology to convert the user's speech into text and uses it as input to Autogen, an interactive multi-agent large-scale language model developed by Microsoft, for user convenience. Autogen uses data from previous conversations between the senior and ChatBot to understand the other user's intent and respond to the response, and then uses a back-end agent to create a wish list, a shared calendar, and a greeting message with the other user's voice through a deep learning model for voice cloning. Additionally, the application can perform home IoT services with SKT's AI speaker (NUGU). The proposed application is expected to contribute to future AI-based senior care technology.

본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 사용자의 편의성을 고려하여 STT(Speech to Text) 기술을 사용해 사용자의 발화를 텍스트로 변환하고, 이를 Microsoft 사의 대화형 멀티 에이전트 거대 언어 모델인 Autogen의 입력으로 사용한다. Autogen은 사용자와 ChatBot의 대화 데이터를 활용하여 상대방의 의도를 파악하여 답변에 대하여 응답한다. 그리고 백엔드 에이전트를 활용하여 위시리스트, 공유 달력 그리고 보이스 클로닝을 위한 딥러닝 모델을 통해 상대방의 목소리가 담긴 안부 메시지 기능을 제공한다. 또한, 애플리케이션은 SKT 사의 인공지능 누구(NUGU) 스피커를 탑재하여 홈 IoT 서비스 기능을 제공한다. 이러한 기능을 통해 제안하는 지능형 애플리케이션은 향후 미래 인공지능 기반의 실버세대 케어 기술에 기여할 것이다.

Keywords

I. Introduction

전 세계적으로 고령화가 진행되는 추세에서 한국은 가장 빠르게 고령화가 진행되고 있다. 이러한 국내 고령화의 진행 속도는 2025년 기준으로 더욱 가속화될 것으로 예상되며, 이러한 현상은 경제, 사회적인 측면에서 많은 문제를 발생시킬 것이다[1]. 이러한 문제를 해결하기 위해 국내 기업인 SK텔레콤과 KT에서는 독거 실버 세대를 위해 인공지능 및 AI 스피커를 활용한 서비스를 제공하고 있으며 이외에도 실버 세대 케어를 위한 목적으로 다양한 연구들이 수행되고 있다[2-5]. 하지만 현재 수행되고 있는 서비스들과 연구들은 부양할 자식 계층이 없는 독거 실버 세대에 주로 초점이 맞추어져 있다는 한계를 가지고 있으며 그 기능은 주로 건강 케어와 심리 상담을 위주로 서비스되고 있다. 또한, 국내에서 서비스되고 있는 애플리케이션들도 요양사 및 병원 연결과 헬스케어 중심으로 시장이 형성되어 있다는 문제점이 있다[6]. 따라서 이를 해결하기 위해 물리적으로 시공간의 제한이 있는 실버세대를 위한 케어서비스 시스템의 필요성이 증가하고 있다.

이를 위해서 본 논문에서는 물리적으로 시공간의 제한이 있는 실버 세대와 자식 세대를 위한 케어 서비스를 제공하는 모바일 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 자식 세대가 실버 세대의 상태, 원하는 것, 일정 공유 그리고 안부를 전달하기 위한 메시지 기능을 제공한다. 이러한 기능을 구현하기 위해 대화형 거대 언어 모델(LLM)을 활용한다. 또한 자식이 직접 케어 해주는 효과를 제공하기 위해 음성 합성 기술 중 하나인 보이스 클로닝 기술을 활용한다. 또한 실버 세대가 자연 발화를 통하여 쉽고, 편리하게 애플리케이션을 이용할 수 있도록 AI 스피커 연동 서비스와 음성인식 서비스를 제공한다.

본 논문의 구성은 다음과 같다. 2장에서는 국내에서 서비스되고 있는 기존 실버 세대 케어 서비스 앱 및 서비스들의 특징을 분석한다. 3장에서는 제안하는 애플리케이션 설계에 대하여 설명한다. 4장에서는 애플리케이션에서 사용된 딥러닝 모델과 실험 결과를 설명한다. 그리고 5장에서는 실버세대 케어 서비스 애플리케이션 구현에 대하여 설명한다. 마지막으로 6장에서 결론으로 마무리한다.

II. Preliminaries

1. Bench-marking

현재 국내에서 서비스되고 있는 실버 세대 케어 서비스 애플리케이션 및 서비스를 분석한 결과는 표 1과 같다.

Table 1. Bench-marking

CPTSCQ_2024_v29n4_23_2_t0001.png 이미지

표 1의 SKT와 KT의 케어 서비스는 AI 스피커를 활용하며 24시간 모니터링 및 AI 기술을 통해 독거 실버 세대의 정신 및 신체적 안전을 위한 서비스를 제공한다. 하지만 이러한 서비스들은 독거 실버 세대들을 위한 서비스이기 때문에 케어하는 자식과 실버 세대 간의 유대감을 형성하지 못한다는 단점이 있다. ‘Yolving Care’의 경우에는 가족 전용의 서비스를 제공하며 약 복용 체크 및 사진 공유 및 영상통화 기능을 사용할 수 있지만 이는 국내에서 서비스되고 있는 메신저 앱만으로도 대체 가능한 단순 기능을 제공한다. ‘Care TV’의 경우에는 AI 기술을 활용하여 사용자의 TV 사용 패턴을 파악하여 응급 상황과 고독사 등을 분석하는 서비스를 제공하지만 자식의 안부를 궁금해하거나 바라는 것이 있는 실버 세대의 입장에서 추가적인 기능이 없다는 한계가 있다. 마지막으로 ‘Ddoga Care’의 경우, 실버 세대를 위한 맞춤형 요양시설과 상담 서비스를 제공하지만, 가족간의 유대감 형성을 만들기에 부족하다는 단점이 있다.

기존의 케어 애플리케이션 및 서비스 분석 결과를 보면 자식과 실버 세대 간에 유대감을 형성하고 AI 기술을 활용하여 사용자가 이용하기 편리한 서비스가 필요하다는 것을 알 수 있다.

III. Design of Senior Care Service Application

1. Application Workflow

제안된 애플리케이션은 챗봇(ChatBot), 위시리스트(Wish List), 공유 달력 (Shared Calendar), 안부 메시지(Greeting Message) 등의 4가지 주요 기능을 제공한다.

애플리케이션을 개발 및 구현하기 위한 개발 언어 및 프레임워크는 표 2와 같다.

Table 2. Development Language & Framework

CPTSCQ_2024_v29n4_23_3_t0001.png 이미지

본 논문에서 제안하는 실버세대 케어 서비스 애플리케이션의 수행 흐름도는 그림 1과 같다.

CPTSCQ_2024_v29n4_23_3_f0001.png 이미지

Fig. 1. Application Workflow

그림 1에서 제공하는 챗봇 서비스는 Autogen 모델을 활용하여 실버세대의 LLM과 자식세대의 LLM과의 축적된 대화 내용을 통해 상대방의 상태와 정보를 서로 파악할 수 있다. 각 대화 속에서 의도를 파악하고 애플리케이션의 주요 기능을 실행하기 위해 Backend 서버의 3가지 엔드 포인트인 ‘/Wishlist’, ‘/Shared_Calendar’, ‘/Greeting_Message’ 중 한 곳으로 정보를 전송할 수 있도록 Backend Agent를 추가한다. ‘/Wishlist’를 통해 도달한 정보는 쇼핑몰 API와의 연동을 통해 상품의 사진과 이미지 그리고 해당 상품을 구매할 수 있도록 특정 쇼핑몰의 URL 정보를 얻을 수 있게 된다. 그리고 ‘/Shared_Calendar’에서는 약 복용 및 병원 방문일 등과 같은 일정이 도달하면 자식과 부모 양쪽의 달력에 해당 일정이 Backend 서버를 통해 동시에 등록될 수 있도록 구축한다. ‘/Greeting_Message’에서는 상대방에게 전달하고자 정보가 도달하게 되고 이를 보관하여 재생 버튼을 통해 음성으로 메시지를 들을 수 있도록 한다. 추가적으로 엔드 포인트에 정보가 등록되면 PUSH 알림 메시지를 통해 상대방이 확인할 수 있도록 구현한다.

2. AI Speaker

AI Speaker는 SKT 사의 NUGU AI 스피커를 사용하였으며, NUGU Developers에서 제공하는 Play Builder를 활용하여 구현한다. 이용자의 예상 발화에 대한 스크립트를 작성하고 예상 발화 내에서 사용자의 Intents를 구분하여 이에 해당하는 Action에 관한 변수들을 설정한다. 그리고 애플리케이션의 주 기능들을 수행할 수 있도록 Backend 서버와의 연결을 통해 본 애플리케이션과의 연동을 설정한다.

그림 1에서을 사용자가 AI 스피커를 통해 애플리케이션의 주 기능과 관련된 Intents에 해당하는 명령을 전달하면 스피커는 Backend 서버에게 Action으로써 ‘Product NameAction’, ‘Shared_Calendar’, ‘Read_Message’의 변수를 통해 정보를 Backend 서버의 각 엔드 포인트로 정보를 전송하게 된다. 이러한 정보들을 활용하여 상대방 애플리케이션의 위시리스트, 공유 달력 등록 그리고 상대로부터 온 안부 메시지 읽기와 같은 기능을 제공한다.

IV. Deep Learning Model of Senior Care Service Application

1. Autogen

Autogen은 Microsoft 사에서 개발된 멀티 에이전트 LLM 모델로 다수의 Assistant를 통해 LLM 애플리케이션을 사용할 수 있는 오픈 소스 프레임워크이다. 이 모델의 특징은 사용자 지정 및 대화가 가능하며 사람, 역할 등을 조합하여 다양한 모드로 동작할 수 있다는 특징을 가지고 있다[12]. 위 프레임워크는 코드를 작성하는 과정에서 코드의 정확성, 동작 등에 관한 정보를 주고 받으며 올바른 코드 구현을 위해 사용되었다. 하지만 제안한 애플리케이션에서는 위 모델의 특성을 활용하기 위해 그림 2의 User Proxy가 각 Assistant 둘에게 자식과 부모의 집사 역할을 지정하고 자식 계층이 부모 계층의 건강 상태와 심리 상태 등을 파악할 수 있는 용도로 활용한다.

CPTSCQ_2024_v29n4_23_4_f0001.png 이미지

Fig. 2. Structure of a autogen in proposed application

본 논문에서 제안한 실버세대 케어 서비스 애플리케이션에서 구현한 Autogen은 총 3개의 Assistant를 사용한다. 각 Assistant는 실버세대와 대화하는 Assistant, 부모의 정보를 파악하기 위한 자식 전용 Assistant가 있고 각 Assistant에게 역할을 부여하는 User Proxy로 나뉘어져 있다. User Proxy를 제외한 두 Assistant는 송수신 메시지를 기반으로 실버세대와 Assistant 간의 대화로부터 부모의 건강 상태, 원하는 음식 등의 정보를 자식 계층에게 전달할 수 있다. 해당 모델은 애플리케이션 내에서 fast API를 구축하여 동작할 수 있도록 구현한다.

그림 2의 하단에 위치한 백엔드 에이전트(Backend Agent)는 대화 중 상대의 의도를 파악하기 위해 프롬프트 디자인 과정을 거친 후, 애플리케이션의 주 기능들을 수행하기 위해 출력의 형태를 {‘Wishlsit’: ‘상품명’}, {‘Shared-Calendar’: [‘yyyy-mm-dd’, ‘할 일’]}, {‘Greeting-Message’: ‘내용’}와 같은 형식으로 출력한다. 그리고 이를 Backend 서버의 각 엔드 포인트로 정보를 전달한다.

2. Whisper

Whisper는 OpenAI에서 개발된 음성인식 모델로서 각 언어를 약 680,000시간을 사용하여 학습한 모델이다. 위 모델은 기존의 오픈된 음성인식 모델이 영어권 데이터에 집중된 것에 비해 한국어 데이터를 학습하여 한국어 인식에도 높은 성능을 보임이 알려져 있다[13]. 하지만 Whisper 모델은 실버세대 발화에 별도의 학습을 수행하지 않았기 때문에 실버세대 발화의 정확도가 높지 않다는 문제점이 있다. 따라서 본 논문에서는 AI-Hub에서 제공하는 ‘자유 대화 음성(실버세대 남녀)’ 데이터를 활용하여 실버세대 발화에도 음성인식을 구현할 수 있도록 모델의 추가적인 학습을 수행한다. Whisper 모델의 구조는 그림 3과 같다.

CPTSCQ_2024_v29n4_23_4_f0002.png 이미지

Fig. 3. Structure of a whisper model

학습에 사용된 파라미터는 표 3과 같다.

Table 3. Simulation Parameter

CPTSCQ_2024_v29n4_23_4_t0001.png 이미지

표 4는 기존 모델과 추가적인 데이터 학습을 수행한 모델의 성능을 WER(Word Error Rate) 및 CER(Character Error Rate)을 통해 비교한 결과이다.

Table 4. Comparison of performance between the conventional model and the fine-tuned model.

CPTSCQ_2024_v29n4_23_4_t0002.png 이미지

3. Voice Cloning

보이스 클로닝은 자식 계층의 목소리로 직접 안부를 전달하는 기능을 제공한다. 이 기능은 Glow TTS 모델과 Hi-Fi GAN을 활용하여 학습한다. 이러한 학습에 사용된 데이터 및 파라미터에 대한 정보는 표 5와 같다.

Table 5. Data & Simulation Parameter

CPTSCQ_2024_v29n4_23_4_t0003.png 이미지

1) Glow TTS

Glow TTS 모델은 컴퓨터가 인간의 음성을 생성하는 기술 중 하나이다. Glow TTS 모델의 구조 및 추론 과정은 그림 4와 같다. 일반적으로 컴퓨터가 인간처럼 소리를 내려면 데이터가 가진 원래의 분포와 생성된 분포 사이를 정확하고 효율적으로 연결함으로써 컴퓨터가 주어진 텍스트를 바탕으로 인간이 말하는 것처럼 음성을 생성할 수 있다[14]. 따라서 모델을 학습시키고 사용하게 되면 특정 사람의 말투와 음색을 결정할 수 있게 된다. 하지만 모델의 학습 과정에서는 목소리의 기계음과 같은 잡음이 발생하기 때문에 아래 Hi-Fi GAN을 통해 잡음을 감소시켜야 한다.

CPTSCQ_2024_v29n4_23_5_f0001.png 이미지

Fig. 4. Structure of a glow TTS model

2) Hi-Fi GAN

Hi-Fi GAN(High-Fidelity Generative Adversarial Network)은 고품질의 오디오를 생성하기 위해 설계된 딥러닝 모델이다. 이 모델의 구조는 그림 5와 같다.

CPTSCQ_2024_v29n4_23_5_f0002.png 이미지

Fig. 5. Structure of a hi-fi GAN model

그림 5의 모델은 주로 음성 합성 분야에서 사용되며, 특히 TTS 시스템에서 뛰어난 음질을 제공하기 위해 개발되었다[15]. 위 모델은 GAN의 구조를 활용하기 때문에 생성자와 판별자의 경쟁을 통해 생성자는 실제와 더 유사한 음성 데이터를 생성한다. 이를 통해서 Glow TTS로부터 학습된 데이터에서 발생한 잡음은 Hi-Fi Gen 모델의 학습 과정에서 제거되고 실제와 거의 유사한 음성을 낼 수 있도록 한다.

그림 6은 최종적으로 출력된 Mel-Spectrogram에 대한 대표적인 결과이다.

CPTSCQ_2024_v29n4_23_5_f0003.png 이미지

Fig. 6. Comparison of Mel-Spectrogram between Origin Data and Generative Data

V. Implementation of Senior Care Service Application

1. Login & Home

실버세대 케어 서비스 애플리케이션의 로그인 페이지와 홈 화면은 그림 7과 같다.

CPTSCQ_2024_v29n4_23_5_f0004.png 이미지

Fig. 7. Login & Home

로그인 화면에서는 사용자가 로그인을 시도하면 입력한 아이디와 패스워드를 통해 홈 화면으로 이동할 수 있다. 이때, 이메일 형식을 잘못 입력하면 로그인을 할 수 없다는 알림이 화면에 표시된다. 홈 화면에서는 하단의 메뉴 버튼을 통해서 위시리스트, 챗봇, 그리고 안부 메시지 페이지로 이동할 수 있으며, 하단 메뉴 외에도 Flutter의 Navigator 기능을 통해 홈 화면에서도 해당하는 기능의 페이지로 이동할 수 있도록 구현한다.

2. ChatBot

본 논문에서 챗봇과 사용자와의 대화 및 LLM들 간의 대화 내용은 그림 8과 같다.

CPTSCQ_2024_v29n4_23_6_f0001.png 이미지

Fig. 8. Response from Autogen

그림 8의 왼쪽 대화에서는 상대방의 상태와 정보 등을 챗봇에게 음성으로 물어보았을 때 출력으로 나온 챗봇의 응답 메시지이다. 이 응답은 그림 7의 오른쪽 대화 내용에서 보이는 것처럼 실버세대의 LLM과 자식 계층의 LLM이 서로 상의를 하고 결론을 응답으로써 앱 화면에 출력하는 과정을 수행한다.

3. Wish List

위시리스트 기능은 그림 9와 같다. 사용자는 해당 페이지를 통해서 상대방으로부터 전송된 상품 정보를 확인할 수 있다.

CPTSCQ_2024_v29n4_23_6_f0002.png 이미지

Fig. 9. Wish List

그림 9에서는 마이크 버튼을 누름으로써 실버세대의 발화가 그림 9의 좌측 챗봇을 통해 그 의도가 위시리스트로 파악이 되고 원하는 상품이 Backend 서버의 ‘/Wishlist’에 있는 쇼핑몰 API를 거쳐 상품의 ID, 이미지 그리고 URL 정보가 수집된 뒤, 상대방(그림 오른쪽) 위시리스트에 등록된다.

4. Shared Calendar

공유 달력 기능은 그림 10과 같다. 사용자는 공유 달력 기능을 통해서 등록된 일정의 날짜를 확인할 수 있다.

CPTSCQ_2024_v29n4_23_6_f0003.png 이미지

Fig. 10. Shared Calendar

공유 달력 기능은 마이크 버튼을 누르고 말하면 챗봇을 통해 사용자의 의도가 파악되면 발화 내용에 담겨 있는 날짜와 할 일이 Backend 서버의 엔드 포인트인 ‘/Shared_Calendar’를 거쳐 상대방과 이용자가 연결된 공유 달력에 날짜와 할 일이 동시에 등록된다.

5. Greeting Message

안부 메시지 기능은 그림 11과 같다. 안부 메시지를 확인하는 페이지에서는 상대방으로부터 전송된 메시지를 보관할 수 있으며 재생 버튼을 통해 메시지의 내용을 음성으로 확인할 수 있다.

CPTSCQ_2024_v29n4_23_6_f0004.png 이미지

Fig. 11. Greeting Message

그림 11에서 사용자가 마이크 버튼을 누르고 챗봇에게 전한 안부 내용이 사용자의 의도에 따라 백엔드 에이전트를 통해 안부 메시지로 파악이 되면 전하고자 하는 메시지 내용이 Backend 서버의 엔드 포인트인 ‘/Greeting_Message’를 거쳐 상대방에게 안부 메시지가 등록되는 것을 확인할 수 있다. 여기서 상대방 메시지 함에 등록된 메시지는 재생 버튼을 통해 음성으로 메시지의 내용을 확인할 수 있다.

VI. Conclusions

본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현하였다. 제안된 애플리케이션에서 사용된 Microsoft 사의 Autogen 모델은 실버세대와 Chatbot과의 과거 대화 데이터를 기반으로 자식 계층에게 효과적으로 실버세대에 대한 정보를 제공한다. 또한, Autogen 모델 외에도 제안한 애플리케이션은 백엔드 에이전트를 통해 상대방의 의도에 따라 위시리스트, 공유 달력 그리고 안부 메시지의 기능을 제공한다. 이러한 기능은 사용자의 편의성을 고려하여 자연 발화를 텍스트로 변환하는 Whisper 모델에 실버세대의 발화 데이터를 추가로 학습시켜 고령자의 발음도 기존 모델보다 정확하게 텍스트로 변환할 수 있다. 또한, 실버세대에게 자식의 목소리로 변환하여 메시지를 전달할 수 있도록 Glow TTS, Hi-Fi Gen 모델을 활용하여 보이스 클로닝 기능을 구현하였다. 제안한 실버케어 서비스 애플리케이션은 SK 텔레콤의 AI 스피커 NUGU를 연동하여 실버세대가 사용하기 쉽도록 편의성을 제공한다.

ACKNOWLEDGEMENT

This work was supported by the SK Telecom's FLY AI Challenger program, conducted in collaboration with the Ministry of Employment and Labor and the Korean Skills Quality Authority as part of the 2023 K-Digital Training.

References

  1. Y.S. Lee, S.K. Song, and H. Choi, "AI-based Senior Care Service Development Case Analysis and Prospects," Journal of The Korea Contents Association, Vol. 12, No. 2, pp. 647-656, Feb. 2023, https://doi.org/10.5392/JKCA.2023.23.02.647
  2. H.S. Ham, S.J. Ko, "A Study on Non-Contact Care Robot System through Deep Learning" Journal of The Korea Society of Computer and Information, Vol. 28, No. 12, pp. 33-40. Dec. 2023, https://doi.org/10.9708/jksci.2023.28.12.033
  3. J.M. Park, et al, "Implementation of a Drug Information Retrieval System Through OCR API pErformance Comparison," Journal of The Korea institute of Information and Communication Engineering, Vol 18, No. 5, pp. 1975-8170, Oct. 2023, https://dx.doi.org/10.13067/JKIECS.2023.18.5.989
  4. J.S. Kim, et al, "Design of Monitoring System for Elders Living Environment," Proceedings of the Korea Society of Computer Information Conference, Vol. 30, No. 2, pp. 653-654, July, 2022.
  5. M.C. Park, J.H Lee, and G.H. Kim "Implementation of a Real-Time Biometric Monitoring System for an Elderly Living Alone," Proceedings of the Korea Society of Computer Information Conference, Vol. 32, No. 1, pp. 255-256, Jan. 2024
  6. T.H. Lee, S.H. Park, "Contents Analysis of Mobile Applications for Caregivers of Community-Dwelling Older Adults: Focused on Korea," Journal of The Korea Contents Association, Vol. 22, No. 11, pp. 331-342, Nov. 2022, https://doi.org/10.5392/JKCA.2022.22.11.331
  7. https://www.aicare.biz/
  8. https://enterprise.kt.com/pd/P_PD_AI_AS_005.do
  9. https://www.yolving.com/
  10. https://caretv.co.kr/
  11. https://ddoga.co.kr/
  12. Wu, Qingyun, et al, "Autogen: Enabling next-gen llm applications via multi-agent conversation framework," arXiv preprint arXiv:2308.08155. Aug. 2023, https://doi.org/10.48550/arXiv.2308.08155
  13. Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision," International Conference on Machine Learning. Vol. 202, pp. 28492-28518, Aug. 2023.
  14. J.H. Kim, et al, "Glow-tts: A generative flow for text-to-speech via monotonic alignment search," Advances in Neural Information Processing Systems 33, pp. 8067-8077, Oct. 2020.
  15. J.G. Kong, J.H Kim, and J.Y. Bae, "Hifi-gan:Generative adversarial networks for efficient and high fidelity speech synthesis," Advances in Neural Information Processing System 33. pp. 17022-17033, Oct. 2020.