DOI QR코드

DOI QR Code

Gaussian Mixture Model using Minimum Classification Error for Environmental Sounds Recognition Performance Improvement

Minimum Classification Error 방법 도입을 통한 Gaussian Mixture Model 환경음 인식성능 향상

  • 한다정 (전남대학교 전자컴퓨터공학부) ;
  • 박아론 (전남대학교 전자컴퓨터공학부) ;
  • 박준규 (전남대학교 전자컴퓨터공학부) ;
  • 백성준 (전남대학교 전자컴퓨터공학부)
  • Received : 2011.09.22
  • Accepted : 2011.12.09
  • Published : 2011.12.28

Abstract

In this paper, we proposed the MCE as a GMM training method to improve the performance of environmental sounds recognition. We model the environmental sounds data with newly defined misclassification function using the log likelihood of the corresponding class and the log likelihood of the rest classes for discriminative training. The model parameters are estimated with the loss function using GPD(generalized probabilistic descent). For recognition performance comparison, we extracted the 12 degrees features using preprocessing and MFCC(mel-frequency cepstral coefficients) of the 9 kinds of environmental sounds and carry out GMM classification experiments. According to the experimental results, MCE training method showed the best performance by an average of 87.06% with 19 mixtures. This result confirmed us that MCE training method could be effectively used as a GMM training method in environmental sounds recognition.

본 연구에서는 환경음 인식 성능의 향상을 위하여 GMM의 훈련 방식에 MCE 도입을 제안하였다. 이는 환경음 데이터 모델링에 사용할 분류오류함수를 정의할 때 해당 클래스의 로그우도 뿐 아니라 다른 클래스의 로그우도도 같이 고려함으로써 변별력 있는 분류가 이뤄질 수 있게 한다. 모델의 파라미터는 전체 클래스를 고려한 손실함수를 정의하고, GPD(generalized probabilistic descent)알고리즘을 이용하여 추정하였다. 제안된 방법의 인식 성능 비교를 위해 모두 9가지 환경음을 전처리 과정과 MFCC(mel-frequency cepstral coefficients)를 이용하여 12차 특징을 추출하고, 이를 혼합 성분의 수에 따라 GMM 분류 실험을 행하였다. 실험 결과에 따르면 혼합 성분을 19개 사용한 경우에서 MCE 훈련 방식이 평균 87.06%의 인식률로 가장 좋은 성능을 보였다. 이 결과로 제안한 MCE 훈련 방식이 환경음 인식에서 GMM의 훈련 방식으로 효과적으로 사용될 수 있음을 확인하였다.

Keywords

References

  1. 한국정보화진흥원 국가정보화기획단 정보화전략 기획부, 스마트 시대의 패러다임 변화 전망과 ICT 전략, 한국정보화진흥원, 2010.
  2. B. Schilit, N. Adams, and R. Want, "Context -aware computing applications," In proceedings of IEEE Workshop on Mobile Computing Systems and Applications, pp.85-90, 1994.
  3. 홍일영, 상황인지 소프트웨어, 이젠 몸짓을 넘어 마음을 읽어야한다, 한국소프트웨어진흥원, 2008.
  4. S. Chu, S. Narayanan, and C. C. Jay Kuo, "Environmental Sound Recognition With Time-Frequency Audio Features," IEEE Trans. on Audio, Speech, and Language Processing, Vol.17, No.6, pp.1-16, 2009. https://doi.org/10.1109/TASL.2008.2010365
  5. 박준규, 백성준, "후처리를 이용한 환경음 인식 성능 개선," 한국콘텐츠학회, 제10권, 제7호, pp.31-39, 2010. https://doi.org/10.5392/JKCA.2010.10.7.031
  6. 박준규, 백성준, "멀티 신호를 이용한 환경 인식 성능 개선," 한국콘텐츠학회, 제10권, 제12호, pp.27-33, 2010. https://doi.org/10.5392/JKCA.2010.10.12.027
  7. S. Chu, S. Narayanan, and C. C. Jay Kuo, "Environmental sound recognition using MP-based features," IEEE Internationl Conference on Acoustics, Speech and Signal Processing, pp.1-4, 2008.
  8. M. Cowling and R. Sitte, "Comparison of techniques for environmental sound recognition," Pattern Recognition Letters, Vol.24, No.15, pp.2895-2907, 2003. https://doi.org/10.1016/S0167-8655(03)00147-8
  9. A. Eronen, V. Peltonen, J. Tuomi, A. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi, "Audio-Based Context Recognition," IEEE Trans. on Audio, Speech, and Language Processing, Vol.14, No.1, pp.321-329, 2006. https://doi.org/10.1109/TSA.2005.854103
  10. B. H. Juang, W. Chou, and C. H. Lee, "Minimum classification error rate methods for speech recognition," IEEE Trans. Speech Audio Process, Vol.5, No.3, pp.257-265, 1997. https://doi.org/10.1109/89.568732
  11. R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, John Wiley & Sons, 2001.
  12. B. H. Juang and S. Katagiri, "Discriminative learning for minimum error classification," IEEE Trans. signal processing, Vol.40, No.12, pp.3043-3054, 1992. https://doi.org/10.1109/78.175747
  13. C. Ma and E. Chang, "Comparison of discriminative training methods for speaker verification," IEEE International conference, Acoustic, Speech and Signal processing, Vol.1, pp.192-195, 2003.
  14. Yusuke Kida and Hiroyoshi Yamamoto, "Minimum classification error interactive training for speaker Identification," IEEE International conference, Acoustic, Speech and Signal processing, Vol.1, pp.641-644, 2005.
  15. C. Miyajima, K. Tokuda, and T. Kitamura, "Minimum classification error training for speaker identification using gaussian mixture models based on multi-space probability distribution," EUROSPEECH, Vol.4, pp.2837-2840, 2001.