Performance Improvement of Fast Speaker Adaptation Based on Dimensional Eigenvoice and Adaptation Mode Selection

차원별 Eigenvoice와 화자적응 모드 선택에 기반한 고속화자적응 성능 향상

  • Published : 2003.01.01

Abstract

Eigenvoice method is known to be adequate for fast speaker adaptation, but it hardly shows additional improvement with increased amount of adaptation data. In this paper, to deal with this problem, we propose a modified method estimating the weights of eigenvoices in each feature vector dimension. We also propose an adaptation mode selection scheme that one method with higher performance among several adaptation methods is selected according to the amount of adaptation data. We used POW DB to construct the speaker independent model and eigenvoices, and utterances(ranging from 1 to 50) from PBW 452 DB and the remaining 400 utterances were used for adaptation and evaluation, respectively. With the increased amount of adaptation data, proposed dimensional eigenvoice method showed higher performance than both conventional eigenvoice method and MLLR. Up to 26% of word error rate was reduced by the adaptation mode selection between eigenvoice and dimensional eigenvoice methods in comparison with conventional eigenvoice method.

Eigenvoice 방법은 고속화자적응에 적합하다고 알려져 있지만, 이 방법은 발화수가 증가하더라도 추가적인 인식성능향상이 이루어지지 않는 단점이 있다. 본 논문에서는 이 문제를 해결하기 위해 음성 특징벡터의 차원별로 eigenvoice의 가중치를 구하여 적응시키는 방법과 또한 적응 데이터 수에 따라 높은 인식률을 얻는 적응 방식을 선택하는 방식을 제안한다. 화자독립모델 및 eigenvoice들을 구성하기 위해 POW (Phonetically Optimized Words)데이터베이스를 사용하였으며, PBW(Phonetically Balanced Words) 452단어 중50개까지 발화 수를 변화시키면서 교사방식 (Supervised mode)로 적응에 사용하고 나머지 중 400개를 인식실험에 사용하였다. 차원별 eigenvoice 방법이 발화수가 증가함에 따라 기존의 eigenvoice 나 MLLR 방법보다 높은 성능을 보였으며, eigenvoice와 차원별 eigenvoice방법 사이의 적응 모드 선택을 통해 기존의 eigenvoice 방식에 비해 최고 26%의 단어 오인식률 감소를 얻었다.

Keywords

References

  1. IEEE Trans. Signal Processing v.39 no.4 A study on speaker adaptation of the parameters of continuous density hidden Markov models C.H.Lee;C.H.Lin;B.H.Juang
  2. Computer Speech and Language v.9 no.2 Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models C.J.Leggetter;P.C.Woodland
  3. Proc. ICSLP v.5 Eigenvoices for speaker adaptation R.Kuhn;P.Nguyen;J.C.Jungua;L.Goldwasser;N.Niedzielski;S.Finche;K.Field;M.Contolini
  4. Proc. ICSLP v.4 Very fast adaptation for large vocabulary continuous speech recognition using eigenvoices H.Botterweck
  5. Proc. ICASSP v.1 Anisotropic MAP defined by eigenvoices for large vocabulary continuous speech recognition H.Botterweck
  6. Proc. ICASSP v.1 Very fast adaptation with a compact context-dependent eigenvoice model R.Kuhn;F.Paronninp;P.Nguyen;J.C.Junqua;L.Rigazio
  7. 위탁과제 최종연구보고서 연속음성인식을 위한 음성 단위 발음사전 구성방법 연구 유재원
  8. Proc. ICASSP'95 v.1 Implementation of the PCW(Phonetically Optimized Words) algorithm for speech database Yeonja Lim;Youngjik Lee
  9. 제13회 음성통신 신호처리 워크샵 논문집 공동이용을 위한 단어음성 DB의 구축 및 PBS 설계에 관한 검토 김봉완;김종진;김선태;김태환;김영일;이용주