Abstract
In this paper, we propose a vocal separation method using weighted ${\beta}$-order minimum mean wquare error estimation (WbE) based on kernel back-fitting algorithm. In spoken speech enhancement, it is well-known that the WbE outperforms the existing Bayesian estimators such as the minimum mean square error (MMSE) of the short-time spectral amplitude (STSA) and the MMSE of the logarithm of the STSA (LSA), in terms of both objective and subjective measures. In the proposed method, WbE is applied to a basic iterative kernel back-fitting algorithm for improving the vocal separation performance from monaural music signal. The experimental results show that the proposed method achieves better separation performance than other existing methods.
본 논문에서는 커널 백피팅 알고리즘에 가중 ${\beta}$-지수승 최소평균제곱오차 추정방식(weighted ${\beta}$-order minimum mean square error: WbE)을 적용한 보컬음 분리 방식에 대해 제안한다. 음성 향상 방식에서, WbE는 진폭 성분 기반 MMSE(Minimum Mean Square Error) 추정방식, 로그 스펙트럼 진폭 기반 MMSE 추정방식 등과 같은 기존의 베이지안(Bayesian) 기반의 추정방식들 보다 객관적 및 주관적 측면에서 모두 보다 높은 성능을 나타내는 방식으로 잘 알려져 있다. 이에 본 논문에서는 기본적인 반복적 커널 백피팅 알고리즘에 WbE를 적용하여 음악 신호에서의 보컬음 분리 성능을 향상시키고자 하였다. 실험결과는 본 논문에서 제안한 방식이 기존의 분리 방식보다 분리 성능이 더 뛰어나다는 것을 보인다.