Robust Distributed Speech Recognition under noise environment using MESS and EH-VAD

멀티밴드 스펙트럼 차감법과 엔트로피 하모닉을 이용한 잡음환경에 강인한 분산음성인식

  • Choi, Gab-Keun (Computer Engineering Department, Kwangwoon University) ;
  • Kim, Soon-Hyob (Computer Engineering Department, Kwangwoon University)
  • 최갑근 (광운대학교 컴퓨터공학과) ;
  • 김순협 (광운대학교 컴퓨터공학과)
  • Received : 2010.07.26
  • Accepted : 2010.12.30
  • Published : 2011.01.25

Abstract

The background noises and distortions by channel are major factors that disturb the practical use of speech recognition. Usually, noise reduce the performance of speech recognition system DSR(Distributed Speech Recognition) based speech recognition also bas difficulty of improving performance for this reason. Therefore, to improve DSR-based speech recognition under noisy environment, this paper proposes a method which detects accurate speech region to extract accurate features. The proposed method distinguish speech and noise by using entropy and detection of spectral energy of speech. The speech detection by the spectral energy of speech shows good performance under relatively high SNR(SNR 15dB). But when the noise environment varies, the threshold between speech and noise also varies, and speech detection performance reduces under low SNR(SNR 0dB) environment. The proposed method uses the spectral entropy and harmonics of speech for better speech detection. Also, the performance of AFE is increased by precise speech detections. According to the result of experiment, the proposed method shows better recognition performance under noise environment.

음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널에 의한 왜곡이다. 일반적으로 잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 많이 받고 있다. DSR(Distributed Speech Recognition) 기반의 음성인식 역시 이 같은 문제로 성능 향상에 어려움을 겪고 있다. 이 논문은 잡음환경에서 DSR기반의 음성인식률 향상을 위해 정확한 음성구간을 검출하고, 잡음을 제거하여 잡음에 강인한 특징추출을 하도록 설계하였다. 제안된 방법은 엔트로피와 음성의 하모닉을 이용해 음성구간을 검출하며 멀티밴드 스펙트럼 차감법을 이용하여 잡음을 제거한다. 음성의 스펙트럼 에너지에 대한 엔트로피를 사용하여 음성검출을 하게 되면 비교적 높은 SNR 환경 (SNR 15dB) 에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱 값이 변화하여 낮은 SNR환경(SNR 0dB)에시는 정확한 음성 검출이 어렵다. 이 논문은 낮은 SNR 환경(0dB)에서도 정확한 음성을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 이용하였으며 정확한 음성 구간 검출에 따라 잡음을 제거하여 잡음에 강인한 특정을 추출하도록 하였다. 실험결과 잡음환경에 따른 인식조건에서 개선된 인식성능을 보였다.

Keywords

References

  1. ETSI standard document, "Speech Processing, Transmission and Quality aspects(STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms," ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
  2. ETSI standard document, "Speech Processing, Transmission and Quality aspects(STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 v.1.1.3 (2003-11), Nov. 2003.
  3. Scart, P., Filho, J. "Speech enhancement based on a priori signal to noise estimation", Proc. IEEE Int. Conf. Acoust., Speech Signal Process., pp. 629-632, 2002.
  4. Ephraim, Y., Malah, D. "Speech enhancement Using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech Signal Process., Vol 32, pp. 1109-1121, 1984. https://doi.org/10.1109/TASSP.1984.1164453
  5. 최갑근, 김순협, "엔트로피와 하모닉 검출을 이용한 잡음환경에 강인한 음성검출", 전자공학회논문지, 제47권 SP편 1호, 169-174쪽, 1229-6384, 2010년.
  6. Rabiner, L. R., M. R. Sambur, "An Algorithm for Determining the Endpoints of Isolated Utterances", The Bell System Technical Journal, Vol. 54, No. 2, pp. 297-315, 1975.
  7. Abdallah I., Montresor S., Baudry M, "Robust speech/non-speech detection in adverse conditions using an entropy based estimator" Digital Signal Processing Proceedings 1997, pp. 752-760, Santorini Greece, Jul 1997.
  8. Ramalho, M.A. Mammone, R.J. "New speech enhancement techniques using the pitch mode modulation model" Circuits and Systems, 1993 Proceedings of the 36th Midwest Symposium, pp. 1531-1534, Detroit, USA, Aug 1993.
  9. Ball, S, F., "Supression of acoustic noise in speech using spectral subtraction", IEEE Trans., Speech Signal Process., Vol. 27, pp 113-120, 1979. https://doi.org/10.1109/TASSP.1979.1163209
  10. Berouti, M., Schwartz, R., Makhoul, J. "Enhancement of speech corrupted by acoustic noise", Proc. IEEE Int. Conf. Acoustic, Speech Signal Process., pp 208-211., 1979.
  11. Kamarth, S., Loizou, P. "A multi-Band spectral subtraction method for enhancing speech corrupted by colored noise", Proc. IEEE Int, Conf, Acoustic Speech Signal Process., pp 101-111,2002.
  12. A. Varga and H. J. M. Steeneken, "Assessmentfor automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol 12, no. 3, pp. 247-251, July 1993. https://doi.org/10.1016/0167-6393(93)90095-3