Real-time Lip Region Detection for Lipreadingin Mobile Device

모바일 장치에서의 립리딩을 위한 실시간 입술 영역 검출

  • 김영운 (원광대학교 컴퓨터공학과 대학원) ;
  • 강선경 (원광대학교 컴퓨터공학과 대학원) ;
  • 정성태 (원광대학교 전기전자 및 정보공학부)
  • Published : 2009.04.30


Many lip region detection methods have been developed in PC environment. But the existing methods are difficult to run on real-time in resource limited mobile devices. To solve the problem, this paper proposes a real-time lip region detection method for lipreading in Mobile device. It detects face region by using adaptive face color information. After that, it detects lip region by using geometrical relation between eyes and lips. The proposed method is implemented in a smart phone with Intel PXA 270 embedded processor and 386MB memory. Experimental results show that the proposed method runs at the speed 9.5 frame/see and the correct detection rate was 98.8% for 574 images.

기존에 PC 환경에서는 많은 입술 영역 검출 방법들이 제안되었는데, 자원이 제한되어있는 모바일 장치에서는 이런 방법들을 그대로 적용하면 실시간 동작이 어렵다. 이러한 문제를 해결하기 위하여, 본 논문은 모바일 장치에서 립리딩을 위한 실시간 입술 영역 검출 방법을 제안한다. 본 논문에서는 적응적 얼굴 색상 정보를 이용하여 얼굴 영역을 검출한 다음에 눈 검출을 하고 눈과 입술의 기하학적 관계를 이용하여 입술 영역을 검출한다. 제안된 알고리즘을 Intel PXA 270 임베디드 프로세서와 386MB 메모리를 가진 스마트 폰에 구현하여 실험한 결과 9.5 프레임/초의 속도로 동작하였고 574장의 영상에 대하여 검출 실험한 결과 98.8%의 검출 성공률을 얻을 수 있었다.



  1. E. D. Petajan, "Automatic lipreading to enhance speech recognition," in Proc. of Global Telecommunications Conf., pp. 265-272, Nov. 1984.
  2. C. C. Chibelushi, F. Deravi, and J. S. D. Mason, "A review of speech based bimodal recognition," IEEE Trans. Multimedia, Vol. 4, No. 1, pp. 23-37, Mar. 2002,
  3. G. Potarnianos, C. Neti, G. Gravier, A Garg, A.W. Senior, "Recent advances in the automatic recognition of audiovisual speech", Proceedings of the IEEE. Vol. 91. No. 9, pp. 1306-1326, Sept. 2003,
  4. J, S. Lee and C. H. Park, "Robust Audio-Visual Speech Recognition Based on Late Integration", IEEE Trans. on Multimedia, Vol. 10, No. 5, pp. 767-779, Aug. 2008.
  5. T. Wark, S. Sridharan, V. Chandran, "An approach to statistical lip modelling for speaker identification via chromatic feature extraction", Proc. of Fourteenth International Conference on Pattern Recognition, pp. 123-125, Aug. 1998.
  6. P. Delmas, N. Eveno, M. Lievin, "Towards robust lip tracking", Proc. of 16th International Conference on Pattern Recognition, pp. 528-531, Aug. 2002.
  7. S. Dupont and J. Luettin, "Audio-visual speech modeling for continuous speech recognition," IEEE Trans. on Multimedia, Vol. 2, No. 3, pp. 141-151, Sep. 2000.
  8. C. Bregler and Y. Konig, "Eigenlips for robust speech recognition," in Proc. IEEE ICASSP, Vol. 2, pp. 669-672, 1994,
  9. P. Duchnowski, U. Meier, and A. Waibel. "See me, hear me: Integrating automatic speech recognition and lip-reading," in Proc. ICSLP, Vol. 2, pp. 547 - 550, 1994.
  10. G. Potarnianos, A. Verma, C. Neti, G. Iyengar, and S. Basu, "A cascade image transform for speaker independent automatic speechreading," in Proc. 1st IEEE Int. Conf. Multimedia and Expo., Vol. 2, pp. 1097-1100, 2000.
  11. 이지근, 이은숙, 정성태, 이상설, "PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현," 멀티미디어학회논문지, 제 7권, 제 11호, 1597-1609쪽, 2004년
  12. J. M. Zhang, L. M. Wang, D. J. Niu, Y. Z. Zhan, "Research and implementation of a real time approach to lip detection in video sequences", International Conference on Machine Learning and Cybernetics, pp. 2795-2799, Nov. 2003.
  13. K. Saenko, K. Livescu, M. Siracusa, K. Wilson, J, Glass, T. Darrell, "Visual speech recognition with loosely synchronized feature streams", Proc. of IEEE International Conference on Computer Vision, pp. 1424-1431, Oct. 2005.
  14. P.Viola and M.J. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 511-518, 2001.
  15. 정중교, 박상성, 장동식, "피부색과 Haar-like feature를 이용한 실시간 얼굴검출," 한국컴퓨터정보학회논문지, 제 10권, 제 4호, 113-121쪽, 2005년 11월.
  16. 김형균, 정기봉, "YCbCr정보와 아다부스트 알고리즘을 이용한 실시간 얼굴검출 시스템," 한국컴퓨터정보학회논문지, 제 13권, 제 5호, 19-26쪽, 2008년 9월.
  17. G.R. Bradski, "Real Time Face and Object Tracking as a Component of a Perceptual User Interface", Proc. of the 4th IEEE Workshop on Applications of Computer Vision, pp. 214-219, Oct. 1998.
  18. C. P. Papageorgiou, M. Oren, T. Poggio, "A general framework for object detection", Proc. of Sixth International Conference on Computer Vision, pp. 555-562, Jan. 1998.