지역화된 템플릿기반 동적 시간정합을 이용한 모바일 제스처인식

Mobile Gesture Recognition using Dynamic Time Warping with Localized Template

  • 최봉환 (연세대학교 컴퓨터과학과) ;
  • 민준기 (연세대학교 컴퓨터과학과) ;
  • 조성배 (연세대학교 컴퓨터과학과)
  • 투고 : 2009.12.23
  • 심사 : 2010.01.21
  • 발행 : 2010.04.15

초록

최근 모바일기기에 탑재된 가속도 센서가 제스처기반 모바일 사용자 인터페이스에 활용됨에 따라 동적시간정합(Dynamic Time Warping, DTW)기반 인식기에 대한 연구가 활발하다. DTW는 학습샘플을 매칭 템플릿으로 사용하기 때문에 별도의 학습과정이 없다. 하지만 인식시 입력 데이터를 모든 템플릿과 비교해야하기 때문에 계산복잡도로 인하여 모바일환경에 적용하기 어렵다. 본 논문에서는 이러한 문제를 해결하기 위해 지역화된 소수의 템플릿을 사용하는 DTW기반 제스쳐 인식기를 제안한다. 지역화된 템플릿은 k-평균 클러스터링(k-means clustering)알고리즘을 사용하여 학습 제스처 셋의 유사한 패턴들을 k개의 그룹으로 묶고, 각 그룹의 중심(centroid)에 가까운 패턴을 DTW인식기의 템플릿으로 선택한다. 이러한 방법으로 템플릿수를 줄여 인식속도를 향상하고, 템플릿의 다양성을 유지하여 인식성능저하를 최소화한다. 실험 결과 제안하는 방법이 학습 템플릿을 전부 사용하는 DTW보다 약 5배 빠른 인식속도를 보였으며, 템플릿을 임의로 선택한 경우보다 안정적인 성능을 보임을 확인했다.

Recently, gesture recognition methods based on dynamic time warping (DTW) have been actively investigated as more mobile devices have equipped the accelerometer. DTW has no additional training step since it uses given samples as the matching templates. However, it is difficult to apply the DTW on mobile environments because of its computational complexity of matching step where the input pattern has to be compared with every templates. In order to address the problem, this paper proposes a gesture recognition method based on DTW that uses localized subset of templates. Here, the k-means clustering algorithm is used to divide each class into subclasses in which the most centered sample in each subclass is employed as the localized template. It increases the recognition speed by reducing the number of matches while it minimizes the errors by preserving the diversities of the training patterns. Experimental results showed that the proposed method was about five times faster than the DTW with all training samples, and more stable than the randomly selected templates.

키워드

참고문헌

  1. I. B. Ozer, T. Lu, and W. Wolf, "Design of a real-time gesture recognition system: high performance through algorithms and software," IEEE, Signal Processing Magazine, vol.22, no.3, pp. 57-64, 2005. https://doi.org/10.1109/MSP.2005.1425898
  2. R. S.-Urena, D. M.-Iglesias, A. G.-Antolin, C. P.-Moreno, and F. D.-de-Maria, "Robust ASR using support vector machines," Speech Communication, vol.49, no.4, pp.253-267, 2007. https://doi.org/10.1016/j.specom.2007.01.013
  3. J. Rett and J.Dias, "Gesture recognition using a marionette model and dynamic bayesian networks (DBNs)," ICIAR 2006. LNCS, vol.4141, pp.69-80. 2006.
  4. J. Liu, Z. Wang, L. Zhong, J. Wickramasuriya, and V. Vasudevan, "uWave: Accelerometer -based personalized gesture recognition and its applications," in Pervasive and Mobile Computing (PerCom), vol.5, no.6, pp.657-675, 2009. https://doi.org/10.1016/j.pmcj.2009.07.007
  5. H. Sakoe and S. Chiba, "Dynamic programming algorithm optimization for spoken word recognition," IEEE Transactions on Acoustics, Speech and Signal Processing, vol.26, no.1, pp.43-49, 1978. https://doi.org/10.1109/TASSP.1978.1163055
  6. S. Salvador and P. Chan, "Fast DTW: Toward Accurate Dynamic Time Warping in Linear Time and Space," Intelligent Data Analysis, vol.11, no.5, pp.561-580, 2007.
  7. P. Capitani and P. Ciaccia, "Warping the time on data streams," Data & Knowledge Engineering, vol.62, no.3, pp.438-458, 2007. https://doi.org/10.1016/j.datak.2006.08.012
  8. A.K. Jain and R.C. Dubes, Algorithms for Clustering Data, Prentice Hall, 1988.