DOI QR코드

DOI QR Code

음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출

Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection

  • 문성규 (고려대학교 영상정보처리협동과정) ;
  • 박진수 (고려대학교 전자전기전파공학부) ;
  • 고한석 (고려대학교 전자전기전파공학부)
  • 투고 : 2012.02.15
  • 심사 : 2012.02.29
  • 발행 : 2012.04.30

초록

본 논문에서는 반향이 큰 로봇 환경에 강인한 음성 끝점 검출 방법을 제안한다. 양방향 대화 로봇과 같이 반향대 신호 비가 -5 dB 이하인 반향환경에서는, 반향제거기의 성능이 저하되어 사용자 음성 에너지와 비슷한 크기의 에너지를 갖는 잔여반향이 생긴다. 잡음에 강인한 기존의 음성 끝점검출 방법이라도, 사용자 음성과 비슷한 수준의 에너지를 갖는 잔여반향은 음성으로 오검출하기 때문에 정확한 음성 끝점검출이 어렵다. 반향 환경에 강인한 끝점검출을 위해, 본 논문에서는 음성/반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 기존의 음성끝점검출 방법과 AND 연산하여 음성끝점검출기를 구성하였다. 제안하는 방법의 평가를 위해 반향이 큰 환경에서 고립단어 인식을 실험하였고, 다양한 실험환경에서 기존 음성 끝점검출 방법보다 평균 30 % 이상의 인식 성능 향상을 확인할 수 있었다.

This paper presents a robust speech end-point detector using double talk detection in echoic conditioned speech recognition robot. The proposed method consists of combining conventional end-point detector result and double talk detector result. We have tested the proposed method in isolated word recognition system under echoic conditioned environment. As a result, the proposed algorithm shows superior performance of 30 % to the available techniques in the points of speech recognition rates.

키워드

참고문헌

  1. R. Martin, "Spectral Subtraction Based on Minimum Statistics", Proc. EUSIPCO 94, pp. 1182-1185, Apr. 1994.
  2. S. Boll, "Suppression of Acoustic Noise in Speech using Spectral Subtraction", IEEE Transactions on Speech and Audio Processing, vol. 27, no. 2, pp. 113-120, Apr. 1979. https://doi.org/10.1109/TASSP.1979.1163209
  3. R. McAulay, M. Malpass "Speech Enhancement using a Soft-decision Noise Suppression Filter", IEEE Transactions on Speech and Audio Processing, vol. 28, no. 2, pp. 137-145, Apr. 1980. https://doi.org/10.1109/TASSP.1980.1163394
  4. J. Chen, J. Benesty, H. Yiteng, S. Dolco "New Insights into the Noise Reduction Wiener filter", IEEE Transactions on Audio, Speech and Audio Processing, vol. 14, no. 4, pp. 1218-1234, July. 2006. https://doi.org/10.1109/TSA.2005.860851
  5. Y. Ephraim, "Statistical-model-based Speech Enhancement Systems", Proc. IEEE, vol. 80, no. 10, pp. 1526-1555, Oct. 1992.
  6. C. Paleologu, S. Ciochina, J. Benesty, "An Efficient Proportionate Affine Projection Algorithm for Echo Cancellation ," IEEE Signal processing letter, vol. 17, issue 2, 165-168, 2010. https://doi.org/10.1109/LSP.2009.2035665
  7. A. Mader, H. Puder, G. U. Schmidt, "Step-size control for acoustic echo cancellation filters -an overview", Signal Processing, vol. 80, issue 9, pp. 1697-1719, Sept. 2000. https://doi.org/10.1016/S0165-1684(00)00082-7
  8. C. Paleologu, S. Ciochina, J. Benesty, "Variable stepsize NLMS algorithm for under-modeling acoustic echo cancellation", IEEE Signal Processing Letters, vol. 15, pp.5-8, Sept. 2008. https://doi.org/10.1109/LSP.2007.910276
  9. T. V. Waterschoot, R. Geert, V. Piet, M. Marc "Double- Talk-Robust Prediction Error Identification Algorithms for Acoustic Echo Cancellation", IEEE Transactions on Signal Processing, vol. 55, issue 3, pp. 846-858, Mar. 2007. https://doi.org/10.1109/TSP.2006.887155
  10. A. Mader, H. Puder, G. U. Schmidt, "Step-size control for acoustic echo cancellation filters -an overview", Signal Processing, vol. 80, issue 9, pp. 1697-1719, Sept. 2000. https://doi.org/10.1016/S0165-1684(00)00082-7
  11. S. Gustafsson, R. Martin, P. Jax, P. Vary "A psychoacoustic approach to combined acoustic echo cancellation and noise reduction", IEEE Transactions on Audio, Speech and Audio Processing, vol. 10, issue 5, pp.245-256, Jul. 2002. https://doi.org/10.1109/TSA.2002.800553
  12. D. Duttweiler, "A twelve-channel digital echo canceler," IEEE trans. Commun., vol.26, no. 5, pp. 647-653, May. 1978. https://doi.org/10.1109/TCOM.1978.1094133
  13. Hua Ye, Bo-Xiu Wu, "A new double-talk detection algorithm based on the orthogonality theorem", IEEE trans. communications, vol. 39, issue 11, 1542-1545, Nov. 1991. https://doi.org/10.1109/26.111430
  14. 박진수, 이윤재, 이인호, 고한석 " 스펙트럼 패턴 기반의 잡음 환경에 강인한 음성의 끝점 검출 기법", 말소리와 음성과학, 1권, 4호, 2009.
  15. L. R Labiner, M. R. Sambur, "Voiced-unvoicedsilence detection using the Itakura LPC distance measure", Proc. ICASSP, pp. 323-326, 1977.
  16. B. F. Wu, K. C Wang, "Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse ", IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 762-775, Sept. 2005. https://doi.org/10.1109/TSA.2005.851909
  17. T. Fukuda, O. Ichikawa, M. Nishimura, "Long-Term Spectro-Temporal and Static Harmonic Features for Voice Activity Detection", IEEE trans. selected topics in signal processing, vol. 4, issue 5, pp. 834-844, Oct. 2010. https://doi.org/10.1109/JSTSP.2010.2069750
  18. Hidden Markov model Toolkit 3.2, http://htk.eng.cam.ac.uk
  19. ETRI Headset Korean DB, http://voice.etri.re.kr
  20. L. Yeonja, L. Youngjik, "Implementation of the POW (phonetically optimized words) algorithm for speech database", Proc. ICASSP'95, pp.89-92, May. 1995.