음성 다이얼링을 위한 화자적응

Speaker Adaptation for Voice Dialing

  • 김원구 (군산대학교 전자정보공학부) ;
  • 발행 : 2002.07.01

초록

본 논문에서는 화자독립 음소 모델을 사용하는 개인용 음성 다이얼링 시스템의 성능 개선 방법을 제안하였다. 화자독립 음소모델을 사용한 음성 다이얼링 방법은 각 화자가 발성한 단어와 연관된 음소 열만을 저장하므로 저장 공간은 크게 줄일 수 있으나 화자독립 모델을 음소 인식에 사용할 때 발생하는 오차로 인하여 화자종속 모델을 사용하는 방법보다는 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 학습과정에서 학습 데이터의 음소 열과 화자 적응을 위한 변환 벡터를 동시에 추정한 후 음소 열과 함께 저장하고, 인식 시에 화자독립 음소 모델을 각 화자의 변환벡터를 사용하여 변환한 후 인식을 수행하는 방법을 제안하였다. 여기서 화자적응을 위한 변환 벡터는 확률적 매칭 (stochastic matching)을 위한 최고 유사도 (maximum likelihood) 방법을 이용하여 구하였으며 음소 열과 함께 반복적으로 추정되었다. 인식 실험에서 제안된 방법은 음소 열만을 사용하는 기존 인식 시스템보다 우수한 성능을 나타내었다.

This paper presents a method that improves the performance of the personal voice dialling system in which speaker independent phoneme HMM's are used. Since the speaker independent phoneme HMM based voice dialing system uses only the phone transcription of the input sentence, the storage space could be reduced greatly. However, the performance of the system is worse than that of the system which uses the speaker dependent models due to the phone recognition errors generated when the speaker independent models are used. In order to solve this problem, a new method that jointly estimates transformation vectors for the speaker adaptation and transcriptions from training utterances is presented. The biases and transcriptions are estimated iteratively from the training data of each user with maximum likelihood approach to the stochastic matching using speaker-independent phone models. Experimental result shows that the proposed method is superior to the conventional method which used transcriptions only.

키워드

참고문헌

  1. Proceedings of ICASSP96 Creating speaker-specific phonetic templates with a speaker-independent phonetic recognizer: Implications for voice dialing N.Jain;R.Cole;E.Barnard
  2. Proceedings of ICASSP97 Speaker-dependent speech recognition based on phone-like units models-application to voice dialing V.Fontaine;H.Bourlard
  3. Proceedings of ICASSP98 Acoustic-only based automatic phonetic baseform generation B.Ramabhadran;L.R.Bahi;P.V.deSouza;M.Padmanabhan
  4. Proceedings of ICASSP99 Speech interface for car applications M.Shozakai
  5. Proceedings of ICASSP95 Incremental and instantaneous adaptation techniques for speech recognition G.Zavaliagkos;R.Schwartz;J.Makhoul;Batch
  6. IEEE Trans. on Speech and Audio Processing v.4 A Maximum-likelihood approach to stochastic matching for robust speech recognition A.Sankar;C.H.Lee https://doi.org/10.1109/89.496215
  7. IEEE Trans. Speech and Audio Processing v.4 Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition R.A.Sukkar;C.H.Lee https://doi.org/10.1109/89.544527