DOI QR코드

DOI QR Code

Speech emotion recognition based on CNN - LSTM Model

CNN - LSTM 모델 기반 음성 감정인식

  • 윤상혁 (건국대학교 컴퓨터공학과) ;
  • 전다윤 (건국대학교 컴퓨터공학과) ;
  • 박능수 (건국대학교 컴퓨터공학과)
  • Published : 2021.11.04

Abstract

사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

Keywords

Acknowledgement

본 논문은 2021년도 해양경찰 현장맞춤형 연구개발사업(오션랩)의 재원(No.20016379)으로 수행된 결과임