Mel-Frequency Cepstral Coefficients Using Formants-Based Gaussian Distribution Filterbank

포만트 기반의 가우시안 분포를 가지는 필터뱅크를 이용한 멜-주파수 켑스트럴 계수

  • 손영우 (경북대학교 전자공학과) ;
  • 홍재근 (경북대학교 전자공학과)
  • Published : 2006.11.30

Abstract

Mel-frequency cepstral coefficients are widely used as the feature for speech recognition. In FMCC extraction process. the spectrum. obtained by Fourier transform of input speech signal is divided by met-frequency bands, and each band energy is extracted for the each frequency band. The coefficients are extracted by the discrete cosine transform of the obtained band energy. In this Paper. we calculate the output energy for each bandpass filter by taking the weighting function when applying met-frequency scaled bandpass filter. The weighting function is Gaussian distributed function whose center is at the formant frequency In the experiments, we can see the comparative performance with the standard MFCC in clean condition. and the better Performance in worse condition by the method proposed here.

음성인식의 특징벡터로서 멜-주파수 켑스트럴 계수 (MFCC, mel-frequency cepstral coefficients)가 가장 널리 사용되고 있다. FMCC 추출과정은 입력되는 음성신호를 푸리에 변환한 후, 주파수 대역별로 필터를 취하여 에너지 값을 구하고 이산 코사인 변환을 하여 그 계수 값을 구한다. 본 논문에서는 멜-스케일 된 주파수 대역필터를 취할 때 가중함수에 의해서 구해진 각 대역필터별 가중치를 적용하여 필터의 출력 에너지를 계산한다. 여기서 가중치를 구하기 위해 사용된 가중함수는 포만트가 존재하는 대역을 중심으로 인접한 대역들이 가우시안 분포를 가지는 함수이다. 제안한 방법으로 실험한 결과, 잡음이 거의 없는 음성신호에 대해서는 기존의 MFCC를 사용했을 때와 비슷한 인식률을 보이고 잡음성분이 많을수록 가중치가 적용된 방법이 인식률에서 보다 높은 성능 향상을 가져온다.

Keywords

References

  1. L. R. Rabiner, 'A tutorial on hidden Markov models and selected applications in speech recognition,' Proc. IEEE, 77(2) 257-286, Feb. 1989
  2. H. Hermansky, 'Perceptual linear predictive (PLP) analysis of speech', J. Acoust. Soc. Am 87 1738-1752, April 1990 https://doi.org/10.1121/1.399423
  3. K. K. Chu, S. H. Leung and C. S. Yip, 'Perceptually non-uniform spectral compression for noisy speech recognition', Proc. ICASSP 2003, 404-407 2003
  4. K. K. Chu, S. H. Leung, 'Feature extraction based on perceptually non-uniform spectral compression for speech recognition', Proc. ISCAP 2003, 726-729, 2003
  5. K. K. Chu and S. H. Leung, 'SNR-dependent non-uniform spectral compression for noisy speech recognition', Proc ICASSP 2004, 973-976, 2004
  6. P. Lockwood and J. Boudy, 'Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and the projection for robust speech recognition in cars', Speech Communication, 11 215-228, June 1992 https://doi.org/10.1016/0167-6393(92)90016-Z
  7. M. J. F. Gales and S. J. Young, 'Cepstral parameter compensation for HMM recognition in noise', Speech Communication, 12 231-239, 1993 https://doi.org/10.1016/0167-6393(93)90093-Z
  8. L. Welling and H. Ney, 'Formant estimation for speech recognition', IEEE Trans. On Speech and Audio Processing, 6(1) Jan. 1998
  9. S. Young, D. Kershaw,J. Odell,D. Ollason,and P. Woodland,The HTK Book version 3.2. I, 2002