DOI QR코드

DOI QR Code

Vocal separation method using weighted β-order minimum mean square error estimation based on kernel back-fitting

커널 백피팅 알고리즘 기반의 가중 β-지수승 최소평균제곱오차 추정방식을 적용한 보컬음 분리 기법

  • 조혜승 (광운대학교 전파공학과) ;
  • 김형국 (광운대학교 전파공학과)
  • Received : 2015.08.13
  • Accepted : 2015.09.17
  • Published : 2016.01.31

Abstract

In this paper, we propose a vocal separation method using weighted ${\beta}$-order minimum mean wquare error estimation (WbE) based on kernel back-fitting algorithm. In spoken speech enhancement, it is well-known that the WbE outperforms the existing Bayesian estimators such as the minimum mean square error (MMSE) of the short-time spectral amplitude (STSA) and the MMSE of the logarithm of the STSA (LSA), in terms of both objective and subjective measures. In the proposed method, WbE is applied to a basic iterative kernel back-fitting algorithm for improving the vocal separation performance from monaural music signal. The experimental results show that the proposed method achieves better separation performance than other existing methods.

본 논문에서는 커널 백피팅 알고리즘에 가중 ${\beta}$-지수승 최소평균제곱오차 추정방식(weighted ${\beta}$-order minimum mean square error: WbE)을 적용한 보컬음 분리 방식에 대해 제안한다. 음성 향상 방식에서, WbE는 진폭 성분 기반 MMSE(Minimum Mean Square Error) 추정방식, 로그 스펙트럼 진폭 기반 MMSE 추정방식 등과 같은 기존의 베이지안(Bayesian) 기반의 추정방식들 보다 객관적 및 주관적 측면에서 모두 보다 높은 성능을 나타내는 방식으로 잘 알려져 있다. 이에 본 논문에서는 기본적인 반복적 커널 백피팅 알고리즘에 WbE를 적용하여 음악 신호에서의 보컬음 분리 성능을 향상시키고자 하였다. 실험결과는 본 논문에서 제안한 방식이 기존의 분리 방식보다 분리 성능이 더 뛰어나다는 것을 보인다.

Keywords

References

  1. S. Vembu and S. Baumann "Separation of vocals from polyphonic audio recordings," in Proc. International Society for Music Information Retrieval Conference, 337-344 (2005).
  2. Z. Rafii and B. Pardo, "Repeating pattern extraction technique (REPET): a simple method for music/voice separation," IEEE Trans. Audio, Speech, Language Process. 21, 71-82 (2013).
  3. A. Liutkus, D. Fitzgerald, Z. Raffi, B. Pardo, and L. Daudet, "Kernel additive models for source separation," IEEE Trans. Signal Process. 62, 4298-4310 (2014). https://doi.org/10.1109/TSP.2014.2332434
  4. E. Plourde and B. Champagne, "Auditory-based spectral amplitude estimators for speech enhancement," IEEE Trans. Audio, Speech, Language Process. 16, 1614-1623 (2008). https://doi.org/10.1109/TASL.2008.2004304
  5. F. Deng, F. Bao, and C.-C. Bao, "Speech enhancement using generalized ${\beta}$-order spectral amplitude estimator," Speech Commun. 59, 55-68 (2014). https://doi.org/10.1016/j.specom.2014.01.002
  6. E.Vincent, R. Griboncal, and C. Fevotte, "Performance measurement in blind audio source separation," IEEE Trans. Audio, Speech, Language Process. 14, 1462-1469 (2006). https://doi.org/10.1109/TSA.2005.858005
  7. A. Liutkus, D. Fitzgerald, and Z. Rafii, "Scalable audio separation with light kernel additive modeling," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, 76-80 (2015).