켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법

Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum

  • 김유진 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 정혜경 (국방과학연구소 4체계 개발본부 전자전체계부 2팀인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 정재호 (인하대학교 전자공학과 디지털 신호처리 연구실)
  • 발행 : 2002.05.01

초록

본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

In this paper, we propose a channel normalization method to improve the performance of CMS (cepstral mean subtraction) which is widely adopted to normalize a channel variation for speech and speaker recognition. CMS which estimates the channel effects by averaging long-term cepstrum has a weak point that the estimated channel is biased by the formants of voiced speech which include a useful speech information. The proposed Formant-broadened Cepstral Mean Subtraction (FBCMS) is based on the facts that the formants can be found easily in log spectrum which is transformed from the cepstrum by fourier transform and the formants correspond to the dominant poles of all-pole model which is usually modeled vocal tract. The FBCMS evaluates only poles to be broadened from the log spectrum without polynomial factorization and makes a formant-broadened cepstrum by broadening the bandwidths of formant poles. We can estimate the channel cepstrum effectively by averaging formant-broadened cepstral coefficients. We performed the experiments to compare FBCMS with CMS, PFCMS using 4 simulated telephone channels. In the experiment of channel estimation, we evaluated the distance cepstrum of real channel from the cepstrum of estimated channel and found that we were able to get the mean cepstrum closer to the channel cepstrum due to an softening the bias of mean cepstrum to speech. In the experiment of text-independent speaker identification, we showed the result that the proposed method was superior than the conventional CMS and comparable to the pole-filtered CMS. Consequently, we showed the proposed method was efficiently able to normalize the channel variation based on the conventional CMS.

키워드

참고문헌

  1. IEEE signal processing magazine Robust speaker recognition R. J. Mammone;X. Zhang;R. P. Ramachandran
  2. 한국음향학회지 v.18 no.5 전화선 채널이 화자확인 시스템의 성능에 미치는 영향 조태현;김유진;이재영;정재호
  3. 한국음향학회지 v.17 no.1 음성 인식을 위한 전화망에서의 잡음처리 전원석
  4. Proc. ICASSP Channel-robust speaker identification using modified-mean cepstral mean normalization with frequency warping A. A. Garcia;R. J. Mammone
  5. Proc. ICASSP Pole-filtered cepstral mean subtraction D. Naik
  6. Proc. SPIE v.2227 Channel normalization using pole-filtered cepstral mean subtraction D. Naik;R. Mammone
  7. Proc. Eurospeech Channel estimation and normalization by coherent spectral averaging for robust speaker verification R. Balchandran;V. Ramanujam;R. J. Mammone
  8. Proc. Eurospeech A new cepstrum-based channel compensation method for speaker verification T. F. Lo;M. W. Mak;K. K.Yiu
  9. Ph. D. Thesis A new Homomorphic Vocoder Framework Using Analysis-by-Synthesis Excitation Analysis Jae H. Chung
  10. Digital Processing of Speech Signals L. R. Rabiner;R. W. Schafer
  11. IEEE ASSP v.ASSP-29 Cepstal Analysis Technique for Automatic Speaker Verification S. Furui
  12. IEEE ASSP v.ASSP-35 On the use of bandpass liftering in speech recognition B. H. Juang;L. R. Rabiner;J. G. Wilpon
  13. Proc. ISCAS v.V-49-52 Fast pole-filtering for speaker recognition R. P. Ramachandran;K. R. Farrell
  14. IEEE ASSP v.ASSP-29 Direct(nonrecursive) relations between cepstrum and predictor coefficients M. Schroeder
  15. A Wireline Simulator[Software] J. Kupin
  16. Fundamentals of Speech Recognition L. R. Rabiner;B. H. Juang