Vocal Tract Length Normalization for Speech Recognition

음성인식을 위한 성도 길이 정규화

  • 지상문 (경성대학교 컴퓨터과학과)
  • Published : 2003.12.01

Abstract

Speech recognition performance is degraded by the variation in vocal tract length among speakers. In this paper, we have used a vocal tract length normalization method wherein the frequency axis of the short-time spectrum associated with a speaker's speech is scaled to minimize the effects of speaker's vocal tract length on the speech recognition performance In order to normalize vocal tract length, we tried several frequency warping functions such as linear and piece-wise linear function. Variable interval piece-wise linear warping function is proposed to effectively model the variation of frequency axis scale due to the large variation of vocal tract length. Experimental results on TIDIGITS connected digits showed the dramatic reduction of word error rates from 2.15% to 0.53% by the proposed vocal tract normalization.

화자들 사이의 성도의 길이의 변이에 의하여 음성 인식기의 성능이 저하된다. 본 연구에서는 입력 음성에서 추출한 단구간 스펙트럼의 주파수축을 확대하거나 축소하여 음성인식기에 미치는 화자사이의 성도 길이의 영향을 최소화하는 방법을 사용한다 성도의 길이를 정규화하기 위한 주파수 변환 함수로서, 선형의 주파수 변환 함수와 조각적 선형적인 변환 함수를 고려하였다. 또한, 커다란 성도길이의 변이에 따른 주파수축의 척도변화를 보다 효과적으로 모의할 수 있는 가변구간 조각적 선형함수를 제안한다. TIDIGITS 연결 숫자음 음성자료에 대하여 제안한 방법을 적용한 결과, 단어의 오인식률을 2.15%에서 0.53%로 크게 감소시킴으로서, 성도 길이 정규화가 화자 독립 음성인식기의 성능 향상에 필수적임을 알 수 있었다.

Keywords

References

  1. C. H. Lee, C. H. Lin, and B. H. Juang, 'A study on speaker adaptation of continuous density HMM parameters,' Proc. ICASSP, 1, 145-148, 1991
  2. C. Leggetter and P. Woodland, 'Maximumlikelihood linear regression for speaker adaptation of continuous density hidden markov models,' Computer Speech and Language, 9, 171-185, 1995 https://doi.org/10.1006/csla.1995.0010
  3. E. B. Gouvea, 'Acoustic-Feature-based frequency warping for speaker normalization,' Thesis, Carneigie Mellon University, 1998
  4. L. Lee and R. C. Rose, "A frequencywarping approach to speaker normalization,' IEEE Trans. on Speech and Audio Processing, 6 (1), 49-60, 1998 https://doi.org/10.1109/89.650310
  5. L. F. Uebel and P. C. Woodland, 'An investigation into vocal tract length normalization,' Proc. EuroSpeech, Vol. 6, 2527-2530, 1999
  6. J. McDonough, W. Byrne, and X. Luo, 'Speaker normalization with all-pass transforms,', Proc. ICSLP, paper no 869, 1998
  7. M. Pitz, S. Molau, R. Schluter, and H. Ney, 'Vocal tract normalization equals linear transformation in cepstral space,' Proc. EuroSpeech, E31, 2653-2656, 2001
  8. 신옥근, 'DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화,' 한국음향학회지, 제 22권 제 4호, 299-307, 2003
  9. Y. Ono, H. Wakita and Y. Zhao, 'Speaker normalization using constrained spectral shifts in au ditory filter domain,' EuroSpeech, 1, 355-358, 1993
  10. T. D. Rossing, The science of sound, Addison-Wesley publishing company, p.320, 1989
  11. R. G. Reonard, 'A database for speaker-independent digit recognition,' Proc. ICASSP, 3, 42.11/1-4, 1984