Audio Contents Classification based on Deep learning for Automatic Loudness Control

오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발

  • Published : 2018.06.20

Abstract

오디오 음량을 자동으로 제어하는데 있어 음성이 있는 구간에 대해서 음량이 급격히 줄어드는 것을 막기 위해 콘텐츠에 대한 분석이 필요하다. 본 논문에서는 방송 음량을 조절을 위한 세부 기술로 딥러닝 기반의 콘텐츠 분류 기술을 제안한다. 이를 위해 오디오를 무음, 음성, 음성/오디오 혼합, 오디오의 4개로 정의하고 이를 처리하기 위한 mel-spectrogram을 이용하여 2D CNN 기반의 분류기를 정의하였다. 또한 학습을 위해 방송 오디오 데이터를 활용하여 학습/검증 데이터 셋을 구축하였다. 제안한 방식의 성능을 확인하기 위해 검증 데이터셋을 활용하여 정확도를 측정하였으며 약 81.1%의 정확도를 가지는 것을 확인하였다.

Keywords