DOI QR코드

DOI QR Code

Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing

청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출

  • 이기용 (광운대학교 전자융합공학과) ;
  • 김형국 (광운대학교 전자융합공학과)
  • Received : 2020.08.31
  • Accepted : 2020.10.27
  • Published : 2020.11.30

Abstract

In this paper, we propose a sound event detection method using a multi-channel multi-scale neural networks for sound sensing home monitoring for the hearing impaired. In the proposed system, two channels with high signal quality are selected from several wireless microphone sensors in home. The three features (time difference of arrival, pitch range, and outputs obtained by applying multi-scale convolutional neural network to log mel spectrogram) extracted from the sensor signals are applied to a classifier based on a bidirectional gated recurrent neural network to further improve the performance of sound event detection. The detected sound event result is converted into text along with the sensor position of the selected channel and provided to the hearing impaired. The experimental results show that the sound event detection method of the proposed system is superior to the existing method and can effectively deliver sound information to the hearing impaired.

본 논문에서는 청각 장애인을 위한 소리 감지 홈 모니터링을 위해 다채널 다중 스케일 신경망을 사용한 사운드 이벤트 검출 방식을 제안한다. 제안하는 시스템에서는 홈 내의 여러 무선 마이크 센서들로부터 높은 신호 품질을 갖는 두 개의 채널을 선택하고, 그 신호들로부터 도착신호 지연시간, 피치 범위, 그리고 다중 스케일 합성 곱 신경망을 로그멜 스펙트로그램에 적용하여 추출한 특징들을 양방향 게이트 순환 신경망 기반의 분류기에 적용함으로써 사운드 이벤트 검출의 성능을 더욱 향상시킨다. 검출된 사운드 이벤트 결과는 선택된 채널의 센서 위치와 함께 텍스트로 변환되어 청각 장애인에게 제공된다. 실험결과는 제안한 시스템의 사운드 이벤트 검출 방식이 기존 방식보다 우수하며 청각 장애인에게 효과적으로 사운드 정보를 전달할 수 있음을 보인다.

Keywords

References

  1. G. Y. Kim, S.-S. Shin, and H.-G. Kim, "Home monitoring system based on sound event detection for the hard-of-hearing" (in Korean), J. Acoust. Soc. Kr. 38, 427-432 (2019).
  2. K. Zhang, Y. Cai, Y. Ren, R. Ye, and L. He, "MTFCRNN: Multiscale time-frequency convolutional recurrent neural network for sound event detection," IEEE Access, 8, 147337-147348 (2020). https://doi.org/10.1109/ACCESS.2020.3015047
  3. B. H. Kim, H.-G. Kim, J. Jeong, and J. Y. Kim, "VoIP receiver-based adaptive playout scheduling and packet loss concealment technique," IEEE Trans. Consum. Electron. 59, 250-258 (2013). https://doi.org/10.1109/TCE.2013.6490267
  4. K. Kumatani, J. McDonough, J. F. Lehman, and B. Raj, "Channel selection based on multichannel crosscorrelation coefficients for distant speech recognition," Proc. Joint Workshop Hands-free Speech Commun. Microphone Arrays, 1-6 (2011).
  5. D. Pavlidi, A. Griffin, M. Puigt, and A. Mouchtaris, "Real-time multiple sound source localization and counting using a circular microphone array," IEEE Trans. Audio, Speech, Lang. Process. 21, 2193-2206 (2013). https://doi.org/10.1109/TASL.2013.2272524
  6. B. Uzkent, B. D. Barkana, and H. Cevikalp, "Nonspeech environmental sound classification using svms with a new set of features." Int. J. ICIC. 8, 3511-3524 (2012).