DOI QR코드

DOI QR Code

Speech Enhancement Based on Feature Compensation for Independently Applying to Different Types of Speech Recognition Systems

이기종 음성 인식 시스템에 독립적으로 적용 가능한 특징 보상 기반의 음성 향상 기법

  • Kim, Wooil (School of Computer Science & Engineering, Incheon National University)
  • Received : 2014.07.11
  • Accepted : 2014.07.31
  • Published : 2014.10.31

Abstract

This paper proposes a speech enhancement method which can be independently applied to different types of speech recognition systems. Feature compensation methods are well known to be effective as a front-end algorithm for robust speech recognition in noisy environments. The feature types and speech model employed by the feature compensation methods should be matched with ones of the speech recognition system for their effectiveness. However, they cannot be successfully employed by the speech recognition with "unknown" specification, such as a commercialized speech recognition engine. In this paper, a speech enhancement method is proposed, which is based on the PCGMM-based feature compensation method. The experimental results show that the proposed method significantly outperforms the conventional front-end algorithms for unknown speech recognition over various background noise conditions.

본 논문에서는 이기종 음성 인식 시스템에 독립적으로 적용할 수 있는 음성 향상 기법을 제안한다. 잡음 환경 음성 인식에 효과적인 것으로 알려져 있는 특징 보상 기법이 효과적으로 적용되기 위해서는 특징 추출 기법와 음향 모델이 음성 인식 시스템과 일치해야 한다. 상용화된 음성 인식 시스템에 부가적으로 전처리 기법을 적용하는 상황과 같이, 음성 인식 시스템에 대한 정보가 알려져 있지 않은 상황에서는 기존의 특징 보상 기법을 적용하기가 어렵다. 본 논문에서는 기존의 PCGMM 기반의 특징 보상 기법에서 얻어지는 이득을 이용하는 음성 향상 기술을 제안한다. 실험 결과에서는 본 논문에서 제안하는 기법이 미지의 (Unknown) 음성 인식 시스템 적용 환경에서 기존의 전처리 기법에 비해 다양한 잡음 및 SNR 조건에서 월등한 인식 성능을 나타내는 것을 확인한다.

Keywords

References

  1. S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. on Acoustics, Speech and Signal Proc., vol.27, pp.113-120, 1979. https://doi.org/10.1109/TASSP.1979.1163209
  2. Y. Ephraim and D. Malah, "Speech Enhancement Using Minimum Mean Square Error Short Time Spectral Amplitude Estimator," IEEE Trans. on Acoustics, Speech and Signal Proc., vol.32, no.6, pp.1109-1121, 1984. https://doi.org/10.1109/TASSP.1984.1164453
  3. J. H. L. Hansen and M. Clements, "Constrained Iterative Speech Enhancement with Application to Speech Recognition," IEEE Trans. on Signal Proc., vol.39, no.4, pp.795-805, 1991. https://doi.org/10.1109/78.80901
  4. P. J. Moreno, B. Raj, and R. M. Stern, "Data-driven Environmental Compensation for Speech Recognition: A Unified Approach," Speech Communication, 24(4), pp.267-285, 1998. https://doi.org/10.1016/S0167-6393(98)00025-9
  5. W. Kim and J. H. L. Hansen, "Feature Compensation in the Cepstral Domain Employing Model Combination," Speech Communication, 51(2), pp.83-96, 2009. https://doi.org/10.1016/j.specom.2008.06.004
  6. J. L. Gauvain and C. H. Lee, "Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains," IEEE Trans. on Speech and Audio Proc., vol.2, no.2, pp.291-298, 1994. https://doi.org/10.1109/89.279278
  7. C. J. Leggetter and P. C. Woodland, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density HMMs," Computer Speech and Language, 9, pp.171-185, 1995. https://doi.org/10.1006/csla.1995.0010
  8. M. J. F. Gales and S. J. Young, "Robust Continuous Speech Recognition Using Parallel Model Combination," IEEE Trans. on Speech and Audio Proc., vol.4, no.5, pp.352-359, 1996. https://doi.org/10.1109/89.536929
  9. R. Martin, "Spectral Subtraction Based on Minimum Statistics," EUSIPCO-94, pp.1182-1185, Sep. 1994.
  10. ETSI Standard Document, ETSI ES 202 050 v1.1.1 (2002-10), 2002.
  11. H. G. Hirsch & D. Pearce, "The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions", ISCA ITRW ASR2000, Sep. 2000.
  12. ETSI standard document, ETSI ES 201 108 v1.1.2 (2000-04), Feb. 2000.
  13. http://htk.eng.cam.ac.uk

Cited by

  1. 잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법 vol.38, pp.1, 2019, https://doi.org/10.7776/ask.2019.38.1.051