한국어 모음 입술독해를 위한 시공간적 특징에 관한 연구

A Study on Spatio-temporal Features for Korean Vowel Lipreading

  • 오현화 (경북대학교 전자전기컴퓨터학부) ;
  • 김인철 (경북대학교 전자전기컴퓨터학부) ;
  • 김동수 (경북대학교 전자전기컴퓨터학부) ;
  • 진성일 (경북대학교 전자전기컴퓨터학부)
  • 발행 : 2002.01.01

초록

본 논문에서는 한국어 입술독해를 위한 기반 연구로서 음성학에 기반하여 음성의 시각적 기본 단위인 viseme을 정의하고 입술의 움직임을 적절히 표현할 수 있는 특징들을 추출하여 그 성능을 분석하였다. 먼저, 다수의 화자로부터 한국어 모음에 해당하는 입술의 동영상 데이터베이스를 획득하고 각모음별 시각적 특성을 분석하여 7개의 한국어 모음 viseme을 정의하였으며 입술 윤곽선상의 특징점과 시공간적 특징 벡터들을 추출하여 은닉 마르코프 모델에 적용함으로써 효과적인 입술독해를 위한 각 특징 벡터별 성능을 비교하였다. 7개의 한국어 각 viseme에 대한 인식 실험 결과에서 입술의 안팎 윤곽선의 정보가 모두 반영된 특징 벡터가 입술독해에 효과적으로 적용될 수 있으며 윤곽선 상의 특징점들의 시간적 움직임 크기와 방향이 입술독해를 위하여 매우 중요한 요소임을 확인할 수 있었다.

This paper defines the visual basic speech units, visemes and investigates various visual features of a lip for the effective Korean lipreading. First, we analyzed the visual characteristics of the Korean vowels from the database of the lip image sequences obtained from the multi-speakers, thereby giving a definition of seven Korean vowel visemes. Various spatio-temporal features of a lip are extracted from the feature points located on both inner and outer lip contours of image sequences and their classification performances are evaluated by using a hidden Markov model based classifier for effective lipreading. The experimental results for recognizing the Korean visemes have demonstrated that the feature victor containing the information of inner and outer lip contours can be effectively applied to lipreading and also the direction and magnitude of the movement of a lip feature point over time is quite useful for Korean lipreading.

키워드

참고문헌

  1. Speechreading: A Way to Improve Understanding H. Kaplan;C. J. Bally;C. Garretson
  2. Nature v.264 Hearing _ips and Seeing Voices H. McGurk;J. MacDonald https://doi.org/10.1038/264746a0
  3. IEEE Proc. In. Conf. Acoustics. Speech and Signal Processing v.1 Toward Movement-invariant Automatic Lip-reading and Speech Recognition P. Duchnowski;M. Hunke;D. Busching;U. Meier;A. Waibel
  4. IEEE In. Conf. Image Processing v.3 An Image Transform Approach for HMM Based Automatic Lipreading G. Potamianos;H. P. Graf;E. Cosatto
  5. Proc. of 29th Asilomar Conf. Signals, Systems and Computers v.2 Automatic Speech Recognition System Using Acoustic and Visual Signals M. E. Henneke;K.V. Prasad;D. G. Stork
  6. 한국음향학회지 v.18 no.3 입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증 박병구;김진영;임재열
  7. Proc. of 28th Asilomar Conf. Signals, System and Computers Continuous Optical Automatic Speech Recognition by Lipreading A. J. Goldschen;O. N. Garcia;E. Petajan
  8. IEEE In. Joint Symposia on Intelligence and Systems Visible Speech Modeling and Hybrid Markov Models/Neural Networks Based Learning for Lipreading A. Rozen;P. Deleglise
  9. 국어 음운학의 이해 구현옥
  10. 우리말 소리의 연구 v.4 김영송