분산커널 기반의 퍼지 c-평균을 이용한 음악 데이터의 장르 분류

Classification of Music Data using Fuzzy c-Means with Divergence Kernel

  • 발행 : 2009.05.25

초록

본 논문은 효율적인 음악 데이터의 분류를 위한 방법으로 분산커널 기반의 퍼지 c-평균을 이용한 분류기 모델을 제안한다. 분산 커널 기반의 퍼지 c-평균은 주어진 오디오 데이터에서 추출된 특징벡터의 평균과 공분산 정보를 동시에 이용하여 기존의 평균값만을 사용하는 방식에 비해 성능을 월등히 향상시킬 수 있는 장점이 있다. 사용된 방식은 확률적 분포로 주어지는 데이터 사이의 거리를 분산거리척도로 측정하고, 복잡한 분류 경계를 단순화 시키는데 효율적인 커널 개념을 사용함으로서 분류의 정확도를 극대화 시킬 수 있는 장점이 있다. 제안하는 분류기의 성능을 평가하기 위하여 고전음악, 컨트리음악, 힙합, 재즈의 4개의 장르 음악데이터를 총 1200개 수집하여 실험을 진행하였다. 실험의 결과 제안된 분산커널 기반의 퍼지 c-평균을 이용하는 분류기는 기존의 방식과 비교하여 분류정확도에서 평균적으로 17.73%-21.84%의 성능향상을 보여준다.

An approach for the classification of music genres using a Fuzzy c-Means(FcM) with divergence-based kernel is proposed and presented in this paper. The proposed model utilizes the mean and covariance information of feature vectors extracted from music data and modelled by Gaussian Probability Density Function (GPDF). Furthermore, since the classifier utilizes a kernel method that can convert a complicated nonlinear classification boundary to a simpler linear one, he classifier can improve its classification accuracy over conventional algorithms. Experiments and results on collected music data sets demonstrate hat the proposed classification scheme outperforms conventional algorithms including FcM and SOM 17.73%-21.84% on average in terms of classification accuracy.

키워드

참고문헌

  1. E. Wold, et al., 'Content-based classification, search, and retrieval of audio', IEEE Tr. Multimedia, V.3, No.3, pp 27-36. 1996 https://doi.org/10.1109/93.556537
  2. J. Saunders, 'Real time discrimination of broadcast speech/music', Proc. of. ICASSP,, pp. 993-996, 1996
  3. J. Foote, 'Content-based retrieval of music and audio', Proc. SPIE, MSAS, pp 138-147. 1997 https://doi.org/10.1117/12.290336
  4. 정성윤, 김민성, 손종목, 배건성, 'PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험', 전자공학회논문지, 제41권 SP편, 6호, 279-2839쪽, 2004
  5. G. Li, and A. Khokar, 'Content-based indexing and retrieval of audio data using wavelets', Proc. ICME., pp 885-888, 2000
  6. G. Tzanetakis, and P. Cook, 'Musical genre classification of audio signals', IEEE Trans. Speech Audio Process., V. 10, No.5, pp. 293-302, 2002 https://doi.org/10.1109/TSA.2002.800560
  7. D. Turnbull, C. Elkan, 'Fast Recognition of Musical Genres Using RBF Networks', IEEE Trans. Knowl. Data Eng., V. 17, No. 4, pp. 580-584, 2005 https://doi.org/10.1109/TKDE.2005.62
  8. K. Muller, et. al, 'An Introduction to Kernel-Based Learning Algorithms', IEEE Tr. Neural Networks, V. 12, No. 2, pp.181-201, 2001 https://doi.org/10.1109/72.914517
  9. N. Cristianini, J. Shawe-Taylor, An Introduction to Support Vector Machine, Cambridge Univ. Press, Cambridge, 2000
  10. J. Chen, C. Chen, 'Fuzzy Kernel Perceptron', IEEE Tr. Neural Networks, V. 13, No. 6, pp. 1364-1373, 2002 https://doi.org/10.1109/TNN.2002.804311
  11. ]S. Chen, D. Zhang, 'Robust Image Segmentation using FCM with Spatial Constraints Based on New Kernel-Induced Distance Measure', IEEE Tr. SMC., V. 34, No.4, pp.1907-1916, 2004 https://doi.org/10.1109/TSMCB.2004.831165
  12. Y.-S. Song, et al.,'Fuzzy C-Means Algorithm with Divergence-Based Kernel', LNAI, V. 4223, pp. 99-108, 2006
  13. D.-C. Park, et al., 'Classification of Audio Signals Using a Bhattacharyya Kernel-Based Centroid Neural Network', (Accepted for PAKDD 2009) https://doi.org/10.1007/978-3-642-01307-2_59
  14. J. Bezdek, 'A convergence theorem for the fuzzy ISODATA clustering algorithms', IEEE Tr. PAMl, V. 2. pp 1-8. 1980
  15. R. Hathaway, J. Bezdek, Y. Hu, 'Generalized fuzzy c-means clustering strategies using Lp norm distances', IEEE Tr. Fuzzy Systems, V.8, No. 5, pp. 576-582, 2000 https://doi.org/10.1109/91.873580
  16. 곽현욱, 오준택, 손영호, 김욱현, '엔트로피 기반의 가중치와 분포크기를 이용한 향상된 FCM 알고리즘,' 전자공학회논문지, 제43권 SP편, 제4호, 1-8쪽, 2007
  17. D.-C. Park, 'Classification of audio signals using Fuzzy C-means with divergence-based Kernel', Pattern Recognition Letters, (accepted for publication)