청각 구조를 이용한 잡음 음성의 인식 성능 향상

Performance Improvement of Speech Recognizer in Noisy Environments Based on Auditory Modeling

  • 정호영 (한국과학기술원 전기 및 전자공학과) ;
  • 김도영 (한국과학기술원 전기 및 전자공학과) ;
  • 은종관 (한국과학기술원 전기 및 전자공학과) ;
  • 이수영 (한국과학기술원 전기 및 전자공학과)
  • 발행 : 1995.10.01

초록

본 논문에서는 청각 모델을 기초로 잡음에 강한 음성 특징 추출을 연구하였다. 청각모델은 basilar membrane 모델, 섬모세포(hair cell) 모델과 스펙트럼 출력단으로 구성하였다. Basilar membrane 모델은 음파의 진동에 따른 전달 특성을 묘사한 것으로 대역 통과 필터의 열로 나타난다. 섬모 세포 모델은 basilar membrane의 진동에 의한 신경 물질로의 변환을 나타낸다. 이것은 입력의 상대적인 값에 크게 반응하는 adaptation 기능을 이용하게 되며, 잡음 제거에 중요한 역할을 하게 된다. 스펙트럼 출력 단은 각 채널의 평균 firing rate를 이용하여 mean rate spectrum을 형성한다. 그리고 mean rate spectrum을 이용하여 특징 벡터를 추출하였다. 실험 결과는 청각 구조에 기초한 특징 추출이 다른 특징 추출 방법에 비해 잡음에서 더 향상된 성능을 가짐을 보였다.

In this paper, we study a noise-robust feature extraction method of speech signal based on auditory modeling. The auditory model consists of a basilar membrane, a hair cell model and spectrum output stage. Basilar membrane model describes a response characteristic of membrane according to vibration in speech wave, and is represented as a band-pass filter bank. Hair cell model describes a neural transduction according to displacements of the basilar membrane. It responds adaptively to relative values of input and plays an important role for noise-robustness. Spectrum output stage constructs a mean rate spectrum using the average firing rate of each channel. And we extract feature vectors using a mean rate spectrum. Simulation results show that when auditory-based feature extraction is used, the speech recognition performance in noisy environments is improved compared to other feature extraction methods.

키워드