A New Power Spectrum Warping Approach to Speaker Warping

화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법

  • Published : 2004.07.01

Abstract

The method of speaker normalization has been known as the successful method for improving the accuracy of speech recognition at speaker independent speech recognition system. A frequency warping approach is widely used method based on maximum likelihood for speaker normalization. This paper propose a new power spectrum warping approach to making improvement of speaker normalization better than a frequency warping. Th power spectrum warping uses Mel-frequency cepstrum analysis(MFCC) and is a simple mechanism to performing speaker normalization by modifying the power spectrum of Mel filter bank in MFCC. Also, this paper propose the hybrid VTN combined the Power spectrum warping and a frequency warping. Experiment of this paper did a comparative analysis about the recognition performance of the SKKU PBW DB applied each speaker normalization approach on baseline system. The experiment results have shown that a frequency warping is 2.06%, the power spectrum is 3.06%, and hybrid VTN is 4.07% word error rate reduction as of word recognition performance of baseline system.

화자 정규화 방법은 화자 독립 음성인식 시스템에서 음성 인식의 정확성을 높이기 위한 성공적인 방법으로 알려져 왔다. 널리 사용되는 화자 정규화 방법은 maximum likelihood 반의 주파수 warping 방법이다. 본 논문은 주파수 warping 보다 더 좋은 화자 정규화의 성능 개선을 위해 새로운 파워 스펙트럼 warping 방법을 제안한다. 파워 스펙트럼 warping은 멜 주파수 켑스트럼 분석(MFCC) 방법을 이용하며, MFCC 처리 단계에서 필터 뱅크의 파워 스펙트럼을 조절함으로써 화자 정규화를 수행하는 간단한 메커니즘으로 갖는다. 또한 본 논문은 파워 스펙트럼 warping과 주파수 warping 방법을 서로 결합한 hybrid VTN 방법을 제안한다. 본 논문의 실험은 baseline 시스템에 각 화자 정규화 방법을 적용하여 SKKU PBW DB에서 인식 성능을 비교 분석하였다. 실험 결과를 보면 baseline 시스템의 단어 인식 성능을 기준으로 주파수 warping은 2.06%, 파워 스펙트럼 warping은 3.05%, 그리고 hybrid VTN은 4.07%의 단어 에러 율의 감소를 보였다.

Keywords

References

  1. L. Lee and R. C. Rose, 'A Frequency Warping Approach to Speaker Normalization', IEEE Trans. on Speech and Audio Processing, Vol.6, NO.1, pp.49-60. Jan., 1998 https://doi.org/10.1109/89.650310
  2. L. Welling, H. Ney, S. Kanthak, 'Speaker Adaptive Modeling by Vocal Tract Normalization' , IEEE Transaction on Speech and Audio Processing, Vol. 10, No.6, September 2002 https://doi.org/10.1109/TSA.2002.803435
  3. A. Andreou, T. Kam, and J. Cohen, 'Experiments in Vocal Tract Normalization' , in Proc. CAIP Workshop: Frontiers in Speech Recognition II, 1994
  4. Michael Seltzer, 'SPHINX Ill Signal Processing Front End Specification' , CMU Speech Group, August 1999
  5. Y. Linde, A. Duzo, R. M. Gray, 'An Algorithm for Vector Quantizer Design' , IEEE Transaction on COM., Vol. 28, January 1980
  6. J.S. Youn, K. W. Chung and K.S. Hong, 'A Continuous Digit Speech Recognition Applied Vowel Sequence and VCCV Unit HMM', Proceeding of the Acoustical Society of Korea, Vol. 20, No.2, 2001
  7. T.D. Rossing, P. Wheeler and F.R. Moore, 'The Science of Sound' , Addition Wesley, 2002
  8. R. Roth et al, 'Dragon systems' 1994 Large Vocabulary Continuous Speech Recognizer' , in Proc. Spoken Language Systems Technology Workshop, 1995