동적 세그멘테이션을 이용한 폴리포닉 오디오 신호의 정현파 모델링

Sinusoidal Modeling of Polyphonic Audio Signals Using Dynamic Segmentation Method

  • 발행 : 2000.05.01

초록

본 논문에서는 폴리포닉 오디오 신호에 대한 정현파 모델링 방법을 제안한다. 정현화 모델링을 폴리포닉 오디오 신호에 적용하는데 있어서 가장 큰 문제점은 스펙트럼 분석을 위한 분석 윈도우의 크기를 결정할 수 없다는 것이다. 또한 고음질의 합성음을 위해서는 악기음의 특성을 결정짓는 어택이 잘 보존되어야 한다. 본 논문에서는 입력 신호를 6개의 옥타브 벤드 구조의 다중 해상도 필터 뱅크를 통과시키고, 각 서브벤드 신호에 대해 서로 다른 크기의 분석 윈도우를 적용시킴으로써 폴리포닉 오디오 신호에 대한 분석 윈도우 크기 결정 문제를 해결한다. 정현파 모델링에서 발생하는 어택과 같은 천이 구간에서의 퍼짐 현상을 개선하기 위해 각 서브밴드 신호에 동적 세그맨테이션 방법을 적용하여 천이 구간 근처에서는 분석과 합성 프레임 크기를 작게 하는 방법을 사용한다. 이 방법을 통해 서브밴드 신호의 구간별 시간-주파수 특성에 따라 적절한 크기의 윈도우를 선택할 수 있다. 동적 세그멘테이션 방법으로는 기존의 방법보다 계산량과 성능 면에서 더 나은 특성을 보이는 방법을 제안한다. 여러가지 폴리포닉 오디오 신호에 대한 시뮬레이션 결과 제안한 정현파 모델링 방법이 음질의 손상 없이 원래 신호를 잘 복원할 수 있음을 확인하였다.

This paper proposes a sinusoidal modeling of polyphonic audio signals. Sinusoidal modeling which has been applied well to speech and monophonic signals cannot be applied directly to polyphonic signals because a window size for sinusoidal analysis cannot be determined over the entire signal. In addition, for high quality synthesized signal transient parts like attacks should be preserved which determines timbre of musical instrument. In this paper, a multiresolution filter bank is designed which splits the input signal into six octave-spaced subbands without aliasing and sinusoidal modeling is applied to each subband signal. To alleviate smearing of transients in sinusoidal modeling a dynamic segmentation method is applied to subbands which determines the analysis-synthesis frame size adaptively to fit time-frequency characteristics of the subband signal. The improved dynamic segmentation is proposed which shows better performance about transients and reduced computation. For various polyphonic audio signals the result of simulation shows the suggested sinusoidal modeling can model polyphonic audio signals without loss of perceptual quality.

키워드

참고문헌

  1. IEEE Trans. on Acoust, Speech, and Signal Processing v.34 no.4 Speech analysis/synthesis based on a sinusoidal representation R. J. McAulay;T. F. Quatieri
  2. IEEE Trans. on Acoust. Speech, and Signal Processing v.34 no.6 Speech transformations based on a sinusoidal representation T. F. Quatieri;R. J. McAulay
  3. J. Audio Eng. Soc. v.40 no.6 Analysis-by-synthesis/Overlap-add sinusoidal modeling applied to the analysis and synthesis of musical tones E. B. George;M. J. T. Smith
  4. Ph. D. thesis, Stanford University A System for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition X. Serra
  5. J. Acoust Soc. Amer. v.80 On the role of spectral transition for speech perception S. Furui
  6. Ph. D. thesis, Stanford University Audio representations for data compression and compressed domain processing S. N. Levine
  7. Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing Speech analysis and coding using a multiresolution sinusoidal transform D. V. Anderson
  8. ICSPAT-1994 v.2 Improving time-scale modification of audio signals using wavelets M. Rodriguez-Hernandez;F. Casajus-Quiros
  9. Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing Spectral analysis of subband filtered signals B. Tang;A. Shen;G. Pottie;A. Alwon
  10. Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing Multiresolution sinusoidal modeling using adaptive segmentation M. Goodwin