SVM의 확률 출력을 이용한 새로운 Global Soft Decision 기반의 음성 향상 기법

Global Soft Decision Using Probabilistic Outputs of Support Vector Machine for Speech Enhancement

  • 조규행 (인하대학교 전자전기공학부) ;
  • 장준혁 (인하대학교 전자전기공학부)
  • 발행 : 2008.02.29

초록

본 논문에서는 support vector machine (SVM) 기반의 global soft decison (GSD)을 이용한 새로운 음성 향상 기법을 제시한다. 일반적으로 soft decision (SD) 이득 수정 및 잡음 전력 추정에 근거한 음성 향상 기법이 hard decision을 이용한 음성향상 기법 보다 우수한 성능을 보이는 것으로 알려져 있다. 특히, 각 프레임에서의 음성 부재에 대한 효과적인 척도인 전역음성 부재확률 (global speech absence probability, GSAP)을 SD 기반의 음성 향상 기법에 적용한 여러 연구가 진행되었다. 본 논문에서는 sigmoid 함수를 이용하여 얻어진 SVM의 확률 출력에 의해 추정된 새로운 GSAP를 음성 향상 기법에 적용한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에 적용하여 PESQ 및 MOS 평가 방법을 바탕으로 기존의 GSD 기반의 스펙트럼 향상 기법과 비교하여 향상된 결과를 나타내었다.

In this paper, we propose a novel speech enhancement technique using global soft decision (GSD) based on the probabilistic outputs of support vector machine (SVM). Generally, speech enhancement algorithms applied soft decision gain modification and noise power estimation have bettor performance than those employing hard decision. Especially, global speech absence probability (GSAP), which is known as an effective measure of the speech absence in each frame, has been adopted to SD-based speech enhancement methods. For this reason, we introduce a new GSAP estimated from the probabilistic output of SVM using sigmoid function. The performance of the proposed algorithm is evaluated by the PESQ and MOS test under various noise environments and yields better results compared with the conventional GSD scheme.

키워드

참고문헌

  1. R. J. McAualy and M. L. Malpass, "Speech enhancement using a soft-decision noise suppression filter," IEEE Trans. Acoust., Speech, Signal Processing, ASSP-28, 137-145, Apr. 1980
  2. N. S. Kim, J.-H. Chang, "Spectral enhancement based on global soft decision," IEEE Signal Processing Letters, 7(5), pp. 108-110, May 2000. https://doi.org/10.1109/97.841154
  3. J. Platt, "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods," Advances in Large Margin Classifiers, MIT Press, 2000
  4. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust., Speech, Signal Processing, 32(6), 1109-1121, Dec. 1984 https://doi.org/10.1109/TASSP.1984.1164453
  5. O. Cappe, "Elimination of musical noise phenomenon with the Ephraim and Malah noise suppressor," IEEE Trans. Speech and Audio Processing, 2(2), 345-349, Apr. 1994 https://doi.org/10.1109/89.279283
  6. V. Vapnik, Statistical learning theory. Wiley, New York, 1998. forthcoming
  7. Xin Dong and Wu Zhaohui, "Speaker recognition using continuous density support vector machines," Electronics letters, 37(17), 1099-1101, Aug. 2001 https://doi.org/10.1049/el:20010741
  8. J.-H. Chang and N. S. Kim, "Speech enhancement: new approaches to soft decision," IEICE Trans. Inf. and Syst., vol. E84-D(9), 1231-1240, Sep. 2001