DOI QR코드

DOI QR Code

Blind Classification of Speech Compression Methods using Structural Analysis of Bitstreams

비트스트림의 구조 분석을 이용한 음성 부호화 방식 추정 기법

  • 유훈 (상명대학교 디지털미디어학부) ;
  • 박철순 (국방과학연구소) ;
  • 박영미 (국방과학연구소) ;
  • 김종호 (순천대학교 멀티미디어공학과)
  • Received : 2011.08.25
  • Accepted : 2011.09.15
  • Published : 2012.01.31

Abstract

This paper addresses a blind estimation and classification algorithm of the speech compression methods by using analysis on the structure of compressed bitstreams. Various speech compression methods including vocoders are developed in order to transmit or store the speech signals at very low bitrates. As a key feature, the vocoders contain the block structure inevitably. In classification of each compression method, we use the Measure of Inter-Block Correlation (MIBC) to check whether the bitstream includes the block structure or not, and to estimate the block length. Moreover, for the compression methods with the same block length, the proposed algorithm estimates the corresponding compression method correctly by using that each compression method has different correlation characteristics in each bit location. Experimental results indicate that the proposed algorithm classifies the speech compression methods robustly for various types and lengths of speech signals in noisy environment.

본 논문에서는 임의의 음성 압축 비트스트림의 구조를 분석하여 음성 신호의 부호화 방식을 추정 및 분류하는 기법을 제안한다. 저 비트율 전송 및 저장을 위하여 다양한 보코더 방식의 음성 압축 기법이 개발되었는데, 이들은 블록 구조를 반드시 포함하고 있다. 각 부호화 방식을 구분하는데 있어, 본 논문에서는 Measure of Inter-Block Correlation (MIBC)를 이용하여 블록 구조의 유무 및 신호 블록의 길이를 파악하고, 블록 길이가 동일한 부호화 방식의 경우 각 부호화 방식마다 압축 스트림 내의 각 비트 위치별로 상관도 분포가 다르다는 점을 이용하여 해당 부호화 방식을 정확하게 추정하는 기법을 제안한다. 실험 결과 제안한 비트스트림 분석 기법은 다양한 음성 신호의 종류, 음성 신호의 길이 및 잡음 환경에 강인한 검출 능력을 나타냄을 보인다.

Keywords

References

  1. A.M.Kondoz, Digital Speech Coding for Low Bit Rate Communications Systems, Chichester, U.K.: John Wiley & Sons, 1994.
  2. L.R.Rabiner and R.W.Schafer, Digital Processing of Speech Signals, Englewood Cliffs, NJ: Prentice Hall, 1978.
  3. CCITT Rec. G.711, "Pulse Code Modulation (PCM) of Voice Frequencies," CCITT Blue Book, vol. III, Fascicle III.4, pp. 175-184, Nov. 1988.
  4. A.Spanias, "Speech coding: a tutorial review," Proceedings of the IEEE, vol. 82, no. 10, pp. 1541-1582, Oct. 1994. https://doi.org/10.1109/5.326413
  5. Wikipedia, Linear Predictive Coding (LPC), [Online]. Available: http://en.wikipedia.org/wiki /Linear_predictive_coding.
  6. M.R.Schroeder and B.S.Atal, "Code-excited linear prediction (CELP): high quality speech at very low bit rates," Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 25.1.1-25.1.4, 1985.
  7. Wikipedia, Code-Excited Linear Prediction (CELP), [Online]. Available: http://en.wikipedi a.org/wiki/Codeexcited_linear_prediction.
  8. Wikipedia, Mixed Excitation Linear Prediction (MELP), [Online]. Available: http://en.wikipedi a.org/wiki/Mixed_Excitation_Linear_Prediction.