Speech/Music Discrimination Using Spectrum Analysis and Neural Network

스펙트럼 분석과 신경망을 이용한 음성/음악 분류

  • 금지수 (경희대학교 컴퓨터공학과) ;
  • 임성길 (경희대학교 컴퓨터공학과) ;
  • 이현수 (경희대학교 컴퓨터공학과)
  • Published : 2007.07.31

Abstract

In this research, we propose an efficient Speech/Music discrimination method that uses spectrum analysis and neural network. The proposed method extracts the duration feature parameter(MSDF) from a spectral peak track by analyzing the spectrum, and it was used as a feature for Speech/Music discriminator combined with the MFSC. The neural network was used as a Speech/Music discriminator, and we have reformed various experiments to evaluate the proposed method according to the training pattern selection, size and neural network architecture. From the results of Speech/Music discrimination, we found performance improvement and stability according to the training pattern selection and model composition in comparison to previous method. The MSDF and MFSC are used as a feature parameter which is over 50 seconds of training pattern, a discrimination rate of 94.97% for speech and 92.38% for music. Finally, we have achieved performance improvement 1.25% for speech and 1.69% for music compares to the use of MFSC.

본 연구에서는 스펙트럼 분석과 신경망을 이용한 효과적인 음성/음악 분류 방법을 제안한다. 제안하는 방법은 스펙트럼을 분석하여 스펙트럴 피크 트랙에서 지속성 특징 파라미터인 MSDF(Maximum Spectral Duration Feature)를 추출하고 기존의 특징 파라미터인 MFSC(Mel Frequency Spectral Coefficients)와 결합하여 음성/음악 분류기의 특징으로 사용한다. 그리고 신경망을 음성/음악 분류기로 사용하였으며, 제안하는 방법의 성능 평가를 위해 학습 패턴 선별과 양, 신경망 구성에 따른 다양한 성능 평가를 수행하였다. 음성/음악 분류 결과 기존의 방법에 비해 성능 향상과 학습 패턴의 선별과 모델 구성에 따른 안정성을 확인할 수 있었다. MSDF와 MFSC를 특징 파라미터로 사용하고 50초 이상의 학습 패턴을 사용할 때 음성에 대해서는 94.97%, 음악에 대해서는 92.38%의 분류율을 얻었으며, MFSC만 사용할 때보다 음성은 1.25%, 음악은 1.69%의 향상된 성능을 얻었다.

Keywords

References

  1. Tong Zhang, C.-C. Jay Kuo, 'Audio Content Analysis for Online Audiovisual Data Segmentation and Classification,' IEEE Trans. Speech and Audio Proc. 9 (4) 441-457, 2001 https://doi.org/10.1109/89.917689
  2. Lie Lu, Hong-Jiang Zhang, Hao Jiang, 'Contents Analysis for Audio Classification and Segmentation,' IEEE Trans. Speech and Audio Proc. 10 (7) 504-516, 2002 https://doi.org/10.1109/TSA.2002.804546
  3. Serkan Kiranyza, Ahmad Farooq Qureshi, Moncef Gabbouj, 'A Generic Audio Classification and Segmentation Approach for Multimedia Indexing and Retrieval,' IEEE Trans. Speech and Audio Proc. 14 (3) 1062-1081, 2006 https://doi.org/10.1109/TSA.2005.857573
  4. 한학용, 김수훈, 허강인, '오디오 데이터의 특징 파라미터 구성에 따른 내용 기반 분석,' 한국음향학회지, 21 (2) 182-189, 2002
  5. Soonil Kwon, Narayanan, S., 'Unsupervised Speaker Indexing Using Generic Models,' IEEE Trans. Speech and Audio Proc. 13 (5) 1004-1013, 2005 https://doi.org/10.1109/TSA.2005.851981
  6. John Saunders, 'Real-Time Discrimination of Broadcast Speech/Music,' in Proc. ICASSP, 2 993-996, 1996
  7. Eric Scheirer, Malcolm Slaney, 'Construction and Evaluation of A Robust Multifeature Speech/Music Discriminator,' in Proc. ICASSP, 2 1331-1334, 1997
  8. Carey, M.J., Parris, E.S., Lloyd-Thomas, H., 'A Comparison of Features for Speech, Music Discrimination,' in Proc. ICASSP, 1 1-152, 1999
  9. Ji-Soo Keum, Hyon-Soo Lee, 'Speech/Music Discrimination using Spectral Peak Feature for Speaker Indexing,' in Proc. ISPACS, 323-326, 2006
  10. Balaji Thoshkahna, V. Sudha, K.R. Ramakrishnan, 'A Speech-Music Discriminator using HILN Model Based Features,' in Proc. ICASSP, 5 425-428, 2006
  11. 박슬한, 최무열, 김형순, '켑스트럼 거리 기반의 음성/음악 판별 성능 향상,' 대한음성학회 말소리, 56 195-206, 2005
  12. 이경록, 서봉수, 김진영, '오디오 인덱싱을 위한 음성/음악 분류 특징 비교,' 한국음향학회지 20 (2) 10-15, 2001
  13. Hard Harb, Liming Chen, 'Robust Speech Music Discrimination using Spectrum's First Order Statistics and Neural Networks.' in Proc. ISSPA, 125-128, 2003
  14. 지민제, '음성의 음향 스텍트로그램 분석,' 대한음성언어의학회 학술대회 심포지움 및 워크샵, 111-127, 1995