Speech emotion recognition based on CNN - LSTM Model

Yoon, SangHyeuk;Jeon, Dayun;Park, Neungsoo;

doi:10.3745/PKIPS.y2021m11a.939

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2021.11a
/
Pages.939-941
/
2021
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Speech emotion recognition based on CNN - LSTM Model

CNN - LSTM 모델 기반 음성 감정인식

Yoon, SangHyeuk (Dept. of Computer Science, Konkuk University) ;
Jeon, Dayun (Dept. of Computer Science, Konkuk University) ;
Park, Neungsoo (Dept. of Computer Science, Konkuk University)

윤상혁 (건국대학교 컴퓨터공학과) ;
전다윤 (건국대학교 컴퓨터공학과) ;
박능수 (건국대학교 컴퓨터공학과)

Published : 2021.11.04

https://doi.org/10.3745/PKIPS.y2021m11a.939 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

Keywords

Acknowledgement

본 논문은 2021년도 해양경찰 현장맞춤형 연구개발사업(오션랩)의 재원(No.20016379)으로 수행된 결과임

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Speech emotion recognition based on CNN - LSTM Model

CNN - LSTM 모델 기반 음성 감정인식

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)