DOI QR코드

DOI QR Code

Speaker Normalization using Gaussian Mixture Model for Speaker Independent Speech Recognition

화자독립 음성인식을 위한 GMM 기반 화자 정규화

  • 신옥근 (한국해양대학교 IT공학부)
  • Published : 2005.08.01

Abstract

For the purpose of speaker normalization in speaker independent speech recognition systems, experiments are conducted on a method based on Gaussian mixture model(GMM). The method, which is an improvement of the previous study based on vector quantizer, consists of modeling the probability distribution of canonical feature vectors by a GMM with an appropriate number of clusters, and of estimating the warp factor of a test speaker by making use of the obtained probabilistic model. The purpose of this study is twofold: improving the existing ML based methods, and comparing the performance of what is called 'soft decision' method with that of the previous study based on vector quantizer. The effectiveness of the proposed method is investigated by recognition experiments on the TIMIT corpus. The experimental results showed that a little improvement could be obtained tv adjusting the number of clusters in GMM appropriately.

화자독립 음성인식기의 화자 정규화를 위해 GMM(Gaussian mixture model)분포를 이용하는 방법에 대해 실험한다. 이 방법은 벡터 양자화기를 이용한 선행 연구를 개선한 것으로, 정규화된 학습용 특징벡터들의 확률분포를 최적의 클러스터의 수를 갖는 GMM분포로 모델링한 다음, 이 분포를 이용하여 시험용화자의 워핑계수를 추정한다. 이 연구의 목적은 기존의 ML을 이용한 방법의 단점을 개선하는 동시에 벡터 양자화기를 이용한 선행연구와'soft decision'이라 불리는 확률 분포를 이용한 방법의 성능을 비교하는데 있다. TIMIT 코퍼스를 대상으로 한 음소 인식 실험에서 클러스터의 수를 적절한 크기로 설정한 GMM분포를 이용함으로써 벡터 양자화기를 이용한 방법에 비해 약간 나은 인식률을 얻을 수 있었다.

Keywords

References

  1. P. Zhan, M. Westphal, 'Speaker Normalization Based on Frequency Warping', Proc. ICASSP '97. pp.1039-1042, 1997 https://doi.org/10.1109/ICASSP.1997.596118
  2. S. Molau, S. Kanthak, H. Ney, 'Efficient Vocal Tract Normalization in Automatic Speech Recognition,' Proc. ESSV, pp.209-216, 2000
  3. L. Lee and R. C. Rose, 'A Frequency Warping Approach to Speaker Normalization', IEEE Trans. on Speech and Audio Processing, Vol.6, NO.1, pp.49-60. Jan., 1998 https://doi.org/10.1109/89.650310
  4. L. Welling, S. Kanthak, H. Ney, 'Improved Methods for Vocal Tract Normalization', Proc. of ICASSP, pp.797-800, Mar., 1999 https://doi.org/10.1109/ICASSP.1999.759780
  5. 신옥근, '연속음성 인식기를 위한 벡터양자화기 기반의 화자 정규화', 한국음향학회지, 제23권 제8호, pp,583-589, 2004
  6. S. Umesh, L. Cohen and D. Nelson, 'Frequency Warping and the Mel Scale', IEEE Signal Processing Letters, pp.104-107, Vol.9, No.3, March, 2001 https://doi.org/10.1109/97.995829
  7. E. Redner & H. Walker, 'Mixture Densities, Maximum Likelihood and the EM Algorithms', SIAM Review, Vol.26, No.2, pp.195-239, Apr., 1984 https://doi.org/10.1137/1026034
  8. G. J. McLachlan, T. Krishnan, 'The EM Algorithm and Extentions', New York, Wiley, 1997
  9. J. Rissanen, 'A universal Prior for Integers and Estimation by Minimum Description Length', Annals of Statistics, Vol.11 No.2, pp.417-431, 1983
  10. S. Young, D. Kershaw, J. Odell, D. Ollason, V. Valtchev and P. Woodland, The HTK Book. ver.3., Microsoft Corp., 2000
  11. J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallet and N. L. Dahlgren, DARPA TIMIT Acoustic Phonetic Continuous Speech Corpus: CDROM, NIST., 1993