• 제목/요약/키워드: Speech presence probability

검색결과 19건 처리시간 0.018초

음성 향상을 위한 최소값 제어 음성 존재 부정확성의 추적기법 (Minima Controlled Speech Presence Uncertainty Tracking Method for Speech Enhancement)

  • 이우정;장준혁
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.668-673
    • /
    • 2009
  • 본 논문에서는 최소값 제어 음성 존재 부정확성의 추정기법을 이용한 음성 향상 기법을 제안한다. 기존의 음성 존재 부정확성 추정기법에서는 간단한 a posteriori SNR에 근거하여 프레임, 채널마다 다른 a priori음성 부재 확률값을 결정하여 음성 부재 확률 계산에 적용하였다. 본 논문에서 제안된 알고리즘은 기존 음성 존재 부정확성 추적방법과는 달리 최소값 제어방법을 이용하여 주파수성분별 최소값에 근거한 강인한 a priori음성 부재 확률값 추정방법을 통해 음성 부재 확률에 적용하여 음성을 향상시킨다. 제안된 음성 향상 기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고 기존의 음성 존재 부정확성 추적방법보다 향상된 결과를 나타내었다.

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

다채널 위너 필터의 주성분 부공간 벡터 보정을 통한 잡음 제거 성능 개선 (Improved speech enhancement of multi-channel Wiener filter using adjustment of principal subspace vector)

  • 김기백
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.490-496
    • /
    • 2020
  • 본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 단일 음원인 경우는 음성 상관 행렬의 주성분 부공간에서 음성 성분을 추정할 수 있다. 이 때, 음성 상관 행렬은 음성과 간섭 잡음의 교차 상관도가 음성 상관 행렬에 비해 무시할만한 수준이라는 가정하에 신호 상관 행렬에서 간섭 잡음의 상관 행렬을 차감하여 추정하게 된다. 그러나 간섭 잡음 수준이 높아지게 되면 이러한 가정이 더 이상 유효하지 않게 되며 이에 따라 주성분 부공간 추정 오차도 증가하게 된다. 본 연구에서는 음성 존재 확률과 목적 신호의 방향 벡터를 이용하여 주성분 부공간을 보정하는 방법을 제안한다. 주성분 부공간에서 다채널 음성 존재 확률을 유도하고 주성분 부공간 벡터를 보정하는데 적용하였다. 실험을 통해 제안하는 방법이 잡음 환경에서 다채널 위너 필터의 성능을 향상시키는 것을 확인할 수 있다.

음성존재확률을 이용한 최적 변형 다채널 위너 필터 (An Optimally-Modified Multichannel Wiener Filter Using Speech Presence Probability)

  • 정상배;김영일
    • 스마트미디어저널
    • /
    • 제7권3호
    • /
    • pp.9-15
    • /
    • 2018
  • 본 논문에서는 음성존재확률을 이용하여 다채널 위너필터의 이득을 최적으로 변형하는 방법을 제안한다. 기존의 음성존재확률을 이용한 다채널 위너필터의 변형은 다소 경험적인 방법을 사용하기 때문에 잔여잡음의 양을 줄이면 음성왜곡이 증가하는 문제가 있다. 하지만, 제안된 최적 변형 다채널 위너필터는 음성존재확률을 최적 필터를 도출하기 위한 비용함수에 적용하여 비제한적 최소화 문제의 해를 이용하여 잔여잡음의 양과 음성왜곡을 동시에 줄일 수 있는 결과를 보였다. 잡음제거된 파형과 스펙트로그램의 평가를 통해서 제안된 최적 변형 다채널 위너필터가 종래의 다채널 위너필터와 비교하여 향상된 SNR과 음성왜곡을 나타냄을 확인할 수 있었다.

조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성향상 (Speech Enhancement Based on Minima Controlled Recursive Averaging Technique Incorporating Conditional MAP)

  • 금종모;박윤식;장준혁
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.256-261
    • /
    • 2008
  • 본 논문에서는 기존의 최소값 제어 재귀 평균기법(minima controlled recursive averaging, MCRA) 알고리즘에 조건 사후 최대 확률 (maximun a posteriori, MAP)을 적용한 음성향상을 제안한다. 기존의 MCRA는 파워스펙트럼에 평균을 취하고 각 서브밴드에서 음성 신호 존재 확률로 조절하는 스무딩 매개변수를 사용한다. 본 논문에서 제안된 알고리즘은 현재 프레임에 들어온 신호가 이전 프레임에서의 음성의 존재와 부재에 대한 조건을 부여해 주어 음성 신호 존재확률을 수정하여 음성향상에 적용한다. 제안된 음성 향상은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)와 주관적 음질평가를 이용하여 평가하였고 기존의 MCRA 방법보다 향상된 결과를 나타내었다.

음성존재확률을 이용한 행렬식 기반 2채널 잡음제거기법 (Determinant-based two-channel noise reduction method using speech presence probability)

  • 박진욱;홍정표
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.649-655
    • /
    • 2022
  • 본 논문에서는 음성존재확률을 활용한 2채널 입력신호 상관행렬의 행렬식 기반 잡음제거 기법을 제안하였다. 제안한 기법은 음성존재확률을 이용해 기존의 행렬식 기반 2채널 잡음제거 기법의 위너 필터 이득을 음성과 잡음구간에 따라 적응적으로 조절함으로써 잡음제거 성능을 더욱 향상시키고자 하였다. 제안한 기법은 잡음 종류, 반향 조건, 신호대잡음비, 잡음원의 개수와 방향이 다양한 모의 환경에서 객관적 평가 방법을 통해 평가되었다. 실험 결과는 대부분의 실험환경에서 행렬식 기반의 기법들이 위상차를 기반으로 한 기법들보다 성능이 우수했고 특히 제안한 음성존재확률을 이용한 행렬식 기반 잡음제거기법이 음성 신호 왜곡을 최소화하면서 가장 우수한 잡음 제거 성능을 보였다.

스펙트럼 변이 기반의 향상된 음성 존재 불확실성 추적 기법을 이용한 Global Soft Decision (Global Soft Decision Based on Improved Speech Presence Uncertainty Tracking Method Incorporating Spectral Gradient)

  • 김종웅;장준혁
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.279-285
    • /
    • 2013
  • 본 논문에서는 기존의 global soft decision 기법에서 음성 부재 확률을 구할 때의 음성 부재와 존재에 대한 a priori 확률값의 비(q)에 스펙트럼 변이 기법을 적용한 음성 향상 기법을 제안한다. 기존의 global soft decision 방법은 음성 부재 확률을 구하기 위해 가정한 가설에 따라 고정된 q 값을 사용하였지만, 본 논문에서 제안한 알고리즘은 기존의 고정된 값에 직전 2 프레임에서의 음성 존재 여부와 스펙트럼 변이 값의 상태 조건에 따라 적응적으로 q 값이 가변되도록 하여 음성 부재 확률을 향상시키는 기법이다. 제안된 방법의 성능 평가를 위해 ITU-T P.862 PESQ(Perceptual Evaluation of Speech Quality)를 이용하여 평가하였고, 그 결과 제안된 스펙트럼 변이 기법을 적용한 방법이 기존의 global soft decision 방법보다 향상된 결과를 보여주었다.

The Performance Improvement of Speech Recognition System based on Stochastic Distance Measure

  • Jeon, B.S.;Lee, D.J.;Song, C.K.;Lee, S.H.;Ryu, J.W.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권2호
    • /
    • pp.254-258
    • /
    • 2004
  • In this paper, we propose a robust speech recognition system under noisy environments. Since the presence of noise severely degrades the performance of speech recognition system, it is important to design the robust speech recognition method against noise. The proposed method adopts a new distance measure technique based on stochastic probability instead of conventional method using minimum error. For evaluating the performance of the proposed method, we compared it with conventional distance measure for the 10-isolated Korean digits with car noise. Here, the proposed method showed better recognition rate than conventional distance measure for the various car noisy environments.

강인한 음성향상을 위한 Minimum Statistics와 Soft Decision의 확률적 결합의 새로운 잡음전력 추정기법 (A Probabilistic Combination Method of Minimum Statistics and Soft Decision for Robust Noise Power Estimation in Speech Enhancement)

  • 박윤식;장준혁
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.153-158
    • /
    • 2007
  • 본 논문에서는 비정상적인 잡음 환경에서 음성향상을 위한 새로운 잡음 추정 기법을 제시한다. 제안된 방법은 잡음 전력 추정을 위해 주파수 채널별 음성부재확률 (SAP, Speech Absence Probability)을 선택적 가중 파라미터로 적용하여 음성 구간에서는 기존의 Minimum Statistics (MS)에 의한 잡음전력 추정치에 비중을 두고 비음성 구간에서는 Soft Decision (SD)에 기반한 잡음전력 추정치를 선택하도록 기존의 알고리즘을 결합한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에서 음성향상기법에 적용하여 주관적인 음질평가 결과에 의해 평가하여 기존의 MS 또는 SD에 기반한 방법보다 향상된 결과를 나타내었다.

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리 (Feature Vector Processing for Speech Emotion Recognition in Noisy Environments)

  • 박정식;오영환
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.77-85
    • /
    • 2010
  • This paper proposes an efficient feature vector processing technique to guard the Speech Emotion Recognition (SER) system against a variety of noises. In the proposed approach, emotional feature vectors are extracted from speech processed by comb filtering. Then, these extracts are used in a robust model construction based on feature vector classification. We modify conventional comb filtering by using speech presence probability to minimize drawbacks due to incorrect pitch estimation under background noise conditions. The modified comb filtering can correctly enhance the harmonics, which is an important factor used in SER. Feature vector classification technique categorizes feature vectors into either discriminative vectors or non-discriminative vectors based on a log-likelihood criterion. This method can successfully select the discriminative vectors while preserving correct emotional characteristics. Thus, robust emotion models can be constructed by only using such discriminative vectors. On SER experiment using an emotional speech corpus contaminated by various noises, our approach exhibited superior performance to the baseline system.

  • PDF