The Effect of the Telephone Channel to the Performance of the Speaker Verification System

전화선 채널이 화자확인 시스템의 성능에 미치는 영향

  • 조태현 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 김유진 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 이재영 (나래이동통신 기술연구소) ;
  • 정재호 (인하대학교 전자공학과 디지털 신호처리 연구실)
  • Published : 1999.07.01

Abstract

In this paper, we compared speaker verification performance of the speech data collected in clean environment and in channel environment. For the improvement of the performance of speaker verification gathered in channel, we have studied on the efficient feature parameters in channel environment and on the preprocessing. Speech DB for experiment is consisted of Korean doublet of numbers, considering the text-prompted system. Speech features including LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair) are analyzed. Also, the preprocessing of filtering to remove channel noise is studied. To remove or compensate for the channel effect from the extracted features, cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl) are applied. Also by presenting the speech recognition performance on each features and the processing, we compared speech recognition performance and speaker verification performance. For the evaluation of the applied speech features and processing methods, HTK(HMM Tool Kit) 2.0 is used. Giving different threshold according to male or female speaker, we compare EER(Equal Error Rate) on the clean speech data and channel data. Our simulation results show that, removing low band and high band channel noise by applying band pass filter(150~3800Hz) in preprocessing procedure, and extracting MFCC from the filtered speech, the best speaker verification performance was achieved from the view point of EER measurement.

본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

Keywords

References

  1. Advances in Speech Processing Sadaoki Furui,;M.Mohan
  2. IEEE Signal Processing Magazine Robust Speaker Recognition-A Feature-based Approach Richard J.Mammone
  3. 인하대학교 전자공학과 대학원 석사학위 논문 끝점검출이 내재된 실시간 고립단어 인식 알고리즘에 관한 연구 백상훈
  4. ICASSP Perceptually Based Linear Predictive Analysis of Speech Hynek Hermansky
  5. Proceedings of the IEEE v.85 no.9 Speaker Recognition: A Tutorial Joseph P.Campbell
  6. IEEE, Journal on Selected Areas in Communications v.6 no.2 Quantizer Design in LSP Speech Analysis-Synthesis Noboru Sugamura
  7. ICASSP v.1 Line Spectrum(LSP) and Speech Data Compression F.K.Soong,;B.H.Juang
  8. The HTK Book Steve Young
  9. ICASSP Cepstral Analysis Technique for Automatic Speaker Verification Sadaoki Furi
  10. IEEE ASSP Magizine Speaker Recognition D. OShaughnessy
  11. 음성언어 정보처리 오영환
  12. IEEE Transactions on speech and audio processing v.2 no.4 RASTA Processing of Speech Hynek Hermansky,;Nelson Morgan
  13. ICASSP v.1 Integrating RASTA-PLP into Speech Recognition Joachim Koehler,;Nelson Morgan
  14. ICASSP Testing with the YOHO CD-ROM Voice Verification Corpus Joseph P.Campbell
  15. ICASSP NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database Charles Jankowski
  16. ICASSP v.1 Sources of Degradation of speech recognition in the telephone network Pedro J.Moreno;Richard M.stern