잡음 환경에서의 음성 인식을 위한 청각 표현

Auditory Representations for Robust Speech Recognition in Noisy Environments

  • 김도석 (한국과학기술원 전기 및 전자공학과) ;
  • 이수영 (한국과학기술원 전기 및 전자공학과) ;
  • 길이만 (한국과학기술원 기초과학부)
  • 발행 : 1996.10.01

초록

본 논문에서는 잡음 환경에서의 음성 인식을 위한 전처리기로서 청각 모델을 제안하였다. 제안된 청각 모델은 와우각 대역 통과 필터와 비선형단으로 구성되어 있으며, 잡음 환경에서도 신호의 주파수 정보와 강도 정보를 효과적으로 표현할 수 있다. 주파수 정보는 신호의 영교차 간격에 의해서, 또 강도 정보는 피크 검출기와 포화 비선형 함수에 의해서 구해진다. 영교차 간격이 교란되는 양의 분산을 교차 레벨 값의 함수로 표현함으로써 영교차 간격을 사용하는 것이 레벨 교차간격에 비해 잡음에 둔감한 특성이 있음을 보였다. 제안된 청각 모델은 다른 청각 모델에 비해 계산량이 적고, 미리 많은 파라미터를 정해줄 필요가 없다. 화자 독립 격리단어 인식 실험 결과 제안된 방법은 잡음 환경에서 우수한 성능을 보였다.

An auditory model is proposed for robust speech recognition in noisy environments. The model consists of cochlear bandpass filters and nonlinear stages, and represents frequency and intensity information efficiently even in noisy environments. Frequency information of the signal is obtained by zero-crossing intervals, and intensity information is also incorporated by peak detectors and saturating nonlinearities. Also, the robustness of the zero-crossings in estimating frequency is verified by the developed analytic relationship of the variance of the level-crossing interval perturbations as a function of the crossing level values. The proposed auditory model is computationally efficient and free from many unknown parameters compared with other auditory models. Speaker-independent speech recognition experiments demonstrate the robustness of the proposed method.

키워드