Effective Feature Extraction in the Individual frequency Sub-bands for Speech Recognition

음성인식을 위한 주파수 부대역별 효과적인 특징추출

  • 지상문 (경성대학교 컴퓨터과학과)
  • Published : 2003.08.01

Abstract

This paper presents a sub-band feature extraction approach in which the feature extraction method in the individual frequency sub-bands is determined in terms of speech recognition accuracy. As in the multi-band paradigm, features are extracted independently in frequency sub-regions of the speech signal. Since the spectral shape is well structured in the low frequency region, the all pole model is effective for feature extraction. But, in the high frequency region, the nonparametric transform, discrete cosine transform is effective for the extraction of cepstrum. Using the sub-band specific feature extraction method, the linguistic information in the individual frequency sub-bands can be extracted effectively for automatic speech recognition. The validity of the proposed method is shown by comparing the results of speech recognition experiments for our method with those obtained using a full-band feature extraction method.

본 논문에서는 주파수 부대역마다 최적의 특징추출을 위해서, 음성인식률을 기준으로 최적의 방법을 선택한다. 다중대역 음성인식 접근을 사용하여 각기 다른 주파수 영역에서 특징벡터를 독립적으로 추출함으로써 부대역별로 다른 특징추출 방법을 적용할 수 있었다. 저주파 대역의 음성은 비교적 스펙트럼의 구조가 명확하므로 전극모델을 사용하는 것이 효과적이었고, 고주파 대역에서는 비모수적인 변환방법인 이산 코사인 변환을 사용한 켑스트럼이 효과적이었다. 부대역별로 효과적인 특징추출 방법을 사용함으로써, 각 주파수 부대역에 포함된 음성인식을 위한 언어정보를 보다 효과적으로 추출할 수 있었다. 음성인식 실험결과, 제안한 방법은 전대역 특징추출보다 우수한 성능을 나타내었다.

Keywords

References

  1. J. B. Allen, 'How do humans process and recognize speech?,' IEEE Trans. On Speech and Audio Processing, 2 (4), 567-577, October 1994 https://doi.org/10.1109/89.326615
  2. H. Bourland and S. Dupont. 'ASR based on independent processing and recombination of partial frequency bands,' Proc. Int. Com. on Spoken Language Processing, 1. 422-425, 1996
  3. H. N. Mirghafori, 'A multi-band approach to automatic speech recognition,' lCI TR-99-04, 1999
  4. H. Hermansky, S. Tibrewala and M. Pavel, 'Towards ASR on partially corrupted speech,' Proc. Int. Conf. on Spoken Language Processing, 1. 462-465, 1996
  5. C. Christophe, H. J. Paul and F. Dominique, 'Towards a global optimization scheme for multi-band speech recognition,' Proc. EUROSPEECH, 2, 587-590, 1999
  6. Y. C. Tam and B. Mak, 'Optimization of sub-band weights using simulated noisy speech in multi-band speech recognition,' Proc, Int. Conf. on Spoken Language Processing, 2000
  7. S. Okawa, T. Nakajima and K. Shirai, 'A recombination strategy for multi-band speech recognition based on mutual information criterion,' Proc. EUROSPEECH, 2, 603-606, 1999
  8. 조훈영, 지상문, 오영환, '다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중.' 한국음향학회지, 제 21권 제 6호, 2002
  9. 지상문, 조훈영, 오영환, '주파수 부대역의 켑스트럼 해상도 최적화에 의한 특징추출,' 한국음향학회지, 제 22권 제 1호, 2003
  10. C. Cerisara and D. Fohr, 'Multi-band automatic speech recognition,' Computer Speech and Language, 15, 151-174, 2001 https://doi.org/10.1006/csla.2001.0163
  11. H. Hermansky, 'Perceptual linear predictive (PLP) analysis of speech,' J. Acoust. Soc. Am. 87 (4), 1738-1752, April 1990 https://doi.org/10.1121/1.399423
  12. R. G. Reonard, 'A database for speaker-independent digit recognition,' Proc. ICASSP, 3, 42.11/1-4, 1984
  13. H. Hermansky and N. Morgan, 'RASTA Processing of speech,' IEEE Trans. On Speech and Audio Processing, 2 (4), 578-589, October 1994 https://doi.org/10.1109/89.326616