Performance Improvement of Mel-Cepstrum Through Optimzing Filter Banks

필터 뱅크 최적화에 의한 멜켑스트럼의 성능 향상

  • Published : 1999.01.01

Abstract

In this paper we propose a method to improve the performance of the mel-cepstrum that is widely used in speech recognition. Typically, the met-cepstrum is obtained by critical band filters that have fixed center spacing and bandwidth. However different filter characteristics produce a different mel-cepstrum, resulting in a different performance. In this paper we analyze triangular-shaped and rectangular-shaped filters. By changing the characteristics of filters such as center frequency and bandwidth, we analyze the performance of the met-cepstrum. Then utilizing the simplex method, we propose a method to optimize the critical band filters. Using the dynamic time warping, we performed speaker independent recognition experiments with Korean digit words pronounced by 10 males and 10 females. Experiments show that the rectangular-shaped filters show good performance and the mel-cepstrum obtained by the optimized filters shows better performance than filters that have fixed center spacing and bandwidth.

본 논문에서는 현재 음성 인식에서 널리 사용되고 있는 멜켑스트럼의 성능 향상 방안을 제안한다. 일반적으로 멜켑스트럼은 인접한 필터간의 중심 간격과 필터의 대역폭이 일정한 critical band 필터들을 사용하여 구한다. 그러나 필터의 특성에 따라 멜켑스트럼의 값들이 달라지게 되고, 이에 따라 인식 성능도 변하게 된다. 본 논문에서는 삼각형과 사각형 모양의 critical band 필터를 사용하여 인접한 필터간의 중심 간격과 필터의 대역폭을 각각 변화시키면서 멜켑스트럼을 구하고 이에 따른 인식 성능을 분석한다. 또한 최적화 알고리즘인 simplex 방법을 사용하여 필터의 중심 주파수와 대역폭을 각각 변화시키면서 최적의 성능을 나타내는 필터를 구하는 방법을 제안한다. 인식 알고리즘으로 DTW (dynamic time warping)를 사용하고, 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 실험을 수행하였다. 사각형 모양의 필터가 삼각형 모양의 필터 보다 우수한 성능을 보여 주었고 제안된 방법으로 최적화된 필터를 사용하여 구한 멜켑스트럼은 기존의 critical band 필터를 사용하는 것보다 향상된 인식 성능을 나타내었다.

Keywords

References

  1. Fundamentals of Speech Recognition L.R.Rabiner,B.Juang,
  2. IEEE Trans. Acoust. Speech, Signal Processing v.ASSP-28 Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences S.B.Davis,;P.Mermelstein,
  3. IEEE Trans. Acoust. Speech, Signal Processing v.ASSP-35 On the Use of Bandpass Liftering in Speech Recognition B.H.Juang,;L.R.Rabiner,;J.G.Wilpon,
  4. Discrete-Time Processing of Speech Singnals J.R.Deller,;J.R.J.G.Proakis,;J.H.L.Hansen,
  5. Discrete-Time Signal Processing A.V.Oppenheim,;R.W.Schafer,
  6. Numerical Recipes in C, (2nd.) W.H.Press,;S.A.Teukolsky,;W.T.Vetterling,;B.P.Flannery,
  7. Numerical Methods and Analysis J.L.Buchanan,;P.R.Turner,
  8. Speech Communication, D.O'Shaughnessy,