DOI QR코드

DOI QR Code

Design of Multimodal User Interface using Speech and Gesture Recognition for Wearable Watch Platform

착용형 단말에서의 음성 인식과 제스처 인식을 융합한 멀티 모달 사용자 인터페이스 설계

  • 성기은 (경북대학교 IT대학 전자공학부) ;
  • 박유진 (경북대학교 IT대학 전자공학부) ;
  • 강순주 (경북대학교 IT대학 전자공학부)
  • Received : 2014.12.22
  • Accepted : 2015.03.04
  • Published : 2015.06.15

Abstract

As the development of technology advances at exceptional speed, the functions of wearable devices become more diverse and complicated, and many users find some of the functions difficult to use. In this paper, the main aim is to provide the user with an interface that is more friendly and easier to use. The speech recognition is easy to use and also easy to insert an input order. However, speech recognition is problematic when using on a wearable device that has limited computing power and battery. The wearable device cannot predict when the user will give an order through speech recognition. This means that while speech recognition must always be activated, because of the battery issue, the time taken waiting for the user to give an order is impractical. In order to solve this problem, we use gesture recognition. This paper describes how to use both speech and gesture recognition as a multimodal interface to increase the user's comfort.

기술 발전에 따른 착용형 단말의 기능들은 더 다양하고 복잡해지고 있다. 복잡한 기능 때문에 일반 사용자들도 기능을 사용하기 힘든 경우가 있다. 본 논문에서는 사용자에게 편리하고 간단한 인터페이스 방식을 제공하자는데 목적을 두고 있다. 음성 인식의 경우 사용자 입장에서 직관적이고 사용하기 편리할 뿐만 아니라 다양한 명령어를 입력할 수 있다. 하지만 음성 인식을 착용형 단말에서 사용할 경우 컴퓨팅 파워라든지 소모전력 등 하드웨어적인 제약이 있다. 또한 착용형 단말은 언제 사용자가 음성으로 명령을 내릴지 그 시점을 알 수가 없다. 따라서 명령을 입력 받기 위해서는 음성 인식이 항상 동작하여야 한다. 하지만 소모전력 문제 때문에 이와 같은 방법을 사용하기에는 무리가 있다. 음성 인식이 가지고 있는 문제점을 보완하기 위해 제스처 인식을 사용한다. 본 논문에서는 음성과 제스처를 혼합한 멀티 모달 인터페이스로 사용자에게 어떻게 편리한 인터페이스를 제공할 것인지에 대해 설명하고 있다.

Keywords

Acknowledgement

Grant : 자율군집을 지원하는 웰빙형 정보기기 내장 소프트웨어 플랫폼 개발

Supported by : 정보통신기술연구진흥센터

References

  1. M. Aymen, A. Abdelaziz, S. Halim, and H. Maaref, "Hidden Markov Models for automatic speech recognition," 2011 International Conference on Communications, Computing and Control Applications (CCCA), pp. 1-6, 2011.
  2. R. Sarikaya, G. Yuqing, G. Saon, "Fractional Fourier transform features for speech recognition," Proc. of IEEE International Conference Acoustics, Speech, and Signal Processing 2004, Vol. 1 pp. 529, 2004.
  3. J. Hai, E.M. Joo, "Improved linear predictive coding method for speech recognition," Proc. of the 2003 Joint Conference of the Fourth International Conference on Information, Communications and Signal Processing, 2003 and Fourth Pacific Rim Conference on Multimedia, pp. 1614-1618, 2003.
  4. C. Feng-Sheng, F. Chih-Ming, H. Chung-Lin, "Hand gesture recognition using a real-time tracking method and hidden Markov models," Image and Vision Computing, Vol. 21, No. 8, pp. 745-758, Aug. 2003. https://doi.org/10.1016/S0262-8856(03)00070-2
  5. R. Amstutz, O. Amft, B. French, A. Smailagic, Siewiorek, Dan, G. Troster, "Performance Analysis of an HMM-Based Gesture Recognition Using a Wristwatch Device," International Conference on Computational Science and Engineering, 2009, pp. 303-309, 2009.
  6. S. Oviatt, "User-centered modeling and evaluation of multimodal interfaces," Proc. of the IEEE, Vol. 91, pp. 1457-1468, 2003. https://doi.org/10.1109/JPROC.2003.817127
  7. M. Conti, M. Kumar, "Opportunities in Opportunistic Computing," Computer, Vol. 43, pp. 42-50, 2010.
  8. X. Ruize, Z. Shengli, and J. Li Wen, "MEMS Accelerometer Based Nonspecific-User Hand Gesture Recognition," IEEE Sensors Journal, Vol. 12, pp. 1166-1173, 2012. https://doi.org/10.1109/JSEN.2011.2166953
  9. Ubinos, http://www.ubinos.org/interface/itf_ubinos

Cited by

  1. Self-Organizing Wearable Device Platform for Assisting and Reminding Humans in Real Time vol.2016, 2016, https://doi.org/10.1155/2016/6048213