잡음 환경에 강인한 이중모드 음성인식 시스템에 관한 연구

A Study on the Robust Bimodal Speech-recognition System in Noisy Environments

  • 이철우 (홍익대학교 전자공학과) ;
  • 고인선 (홍익대학교 전자공학과) ;
  • 계영철 (홍익대학교 전자공학과)
  • 발행 : 2003.01.01

초록

최근 잡음이 심한 환경에서 음성인식을 신뢰성 있게 하기 위하여 입 모양의 움직임 (영상언어)과 음성을 같이 사용하는 방법이 활발히 연구되고 있다 본 논문에서는 영상언어 인식기의 결과와 음성인식기의 결과에 각각 가중치를 주어 결합하는 방법을 연구하였다. 각각의 인식 결과에 적절한 가중치를 결정하는 방법을 제안하였으며, 특히 음성정보에 들어있는 잡음의 정도와 영상정보의 화질에 따라 자동적으로 가중치를 결정하도록 하였다. 모의 실험 결과 제안된 방법에 의한 결합 인식률이 잡음이 심한 환경에서도 84% 이상의 인식률을 나타내었으며, 영상에 번짐효과가 있는 경우 영상의 번짐 정도를 고려한 결합 방법이 그렇지 않은 경우보다 우수한 인식 성능을 나타내었다.

Recent researches have been focusing on jointly using lip motions (i.e. visual speech) and speech for reliable speech recognitions in noisy environments. This paper also deals with the method of combining the result of the visual speech recognizer and that of the conventional speech recognizer through putting weights on each result: the paper proposes the method of determining proper weights for each result and, in particular, the weights are autonomously determined, depending on the amounts of noise in the speech and the image quality. Simulation results show that combining the audio and visual recognition by the proposed method provides the recognition performance of 84% even in severely noisy environments. It is also shown that in the presence of blur in images, the newly proposed weighting method, which takes the blur into account as well, yields better performance than the other methods.

키워드

참고문헌

  1. Proceedings of the IEEE v.86 no.5 Toward multimodal human-computer interface R.Sharma;V.I.Pavlovic;T.S.Huang
  2. Nature v.264 Hearing lips and seeing voices H.McGurk;J.MacDonald
  3. Technical report Active shape models for visual speech feeture extraction J.Luettin;N.A.Thacker;W.Beet
  4. ICASSP Fusion of visual and acoustic signals for command-word recongnition R.Kover;U.Harz;J.Schiffers
  5. IEICE Trans. FUNDAMENTALS v.E80-A no.8 An isolated workd speech recognition based on fusion of visual and auditory information using 30-Frame/s and 24-bit color imange A.Ogihara;S.Asao
  6. 한국음향학회지 v.20 no.6 강인한 음성인식을 위한 이중모드 센서의 결합방식에 관한 연구 이철우;계영철;고인선
  7. 한국음향학회 추계학술발표대회 논문집 v.21 no.2 음성-영상 인식기 결합을 위한 가중치 결정에 관한 연구 이동근;계영철