Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment

최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가

  • 권오욱 (한국전자통신연구원 음성언어연구실)
  • Published : 1998.02.01

Abstract

본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

Keywords

References

  1. IEEE Trans. Signal Processing v.39 A study on speaker adaptation of the parameters of continuous density hidden Markov models C.-H.Lee;C.-H.Lin;B.-H.Juang
  2. IEEE Trans. Speech. Audio Processing v.2 Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains J.-L. Gauvain;C.-H. Lee
  3. IEEE Trans. Speech. Audio Processing v.3 Bayesian adaptive learning of the parameters of hidden Markov model for speech recognition Q. Huo;C. Chan;C.-H. Lee
  4. IEEE Trans. Acoust., Speech. Signal Processing v.4 Speaker adaptation using combined transformation and Bayesian methods V. V. Digalakis;L. G. Neumeyer
  5. Comput. Speech. Language v.9 Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models C. J. Leggetter;P. C. Woodland
  6. Proc. Int. Conf. Spoken Language Processing Vector field smoothing principle for speaker adaptation H. Hattori;S. Sagayama
  7. Proc. IEEE Int. Conf. Acoust. Speech. Signal Processing A Markov random field approach to Bayesian speaker adaptation B. M. Shahshahani
  8. Proc. IEEE Int. Conf. Acoust., Speech. Signal Processing Subphonetic modeling with Markov states-senone M.-Y.Hwang;X. Huang
  9. IEEE Trans. Speech. Audio Processing v.1 Shared-distribution hidden Markov models for speech recognition M.-Y.Hwang;X.Huag
  10. Optimal statistical decisions M. H. DeGroot
  11. Proc. IEEE Int. Conf. Acoust. Speech. Signal Processing Implementation of the POW(phonetically optimized words) algorithm for speech database Y. Lim;Y. Lee
  12. Proc. IEEE Int. Conf. Acoust., Speech. Signal Processing RASTA-PLP speech analysis technique H. Hermansky;N. Morgan;A. Bayya;P. Kohn
  13. IEEE Trans. Speech. Audio Processing v.5 On-line adptive learning of the continuous density hidden Markov model based on approximate recursive Bayes estimate Q.Huo;C.-H.Lee
  14. 한국음향회지 v.16 음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 김희린;이항섭
  15. J. Acoust. Soc. Korea v.16 no.1E Performance of vacabulary-independent speech recognizers with speaker adaptation O . W. Kwon;C. K. Un.;H. R. Kim.