DOI QR코드

DOI QR Code

Deep Learning Music Genre Classification System Model Improvement Using Generative Adversarial Networks (GAN)

생성적 적대 신경망(GAN)을 이용한 딥러닝 음악 장르 분류 시스템 모델 개선

  • Bae, Jun (Department of Computer Science, The University of Suwon)
  • Received : 2020.03.23
  • Accepted : 2020.04.21
  • Published : 2020.07.31

Abstract

Music markets have entered the era of streaming. In order to select and propose music that suits the taste of music consumers, there is an active demand and research on an automatic music genre classification system. We propose a method to improve the accuracy of genre unclassified songs, which was a lack of the previous system, by using a generative adversarial network (GAN) to further develop the automatic voting system for deep learning music genre using Softmax proposed in the previous paper. In the previous study, if the spectrogram of the song was ambiguous to grasp the genre of the song, it was forced to leave it as an unclassified song. In this paper, we proposed a system that increases the accuracy of genre classification of unclassified songs by converting the spectrogram of unclassified songs into an easy-to-read spectrogram using GAN. And the result of the experiment was able to derive an excellent result compared to the existing method.

아이튠즈, 스포티파이, 멜론 등 음악시장은 바야흐로 스트리밍의 시대로 접어들었고, 음악 소비자의 취향에 맞는 음악 선곡과 제안을 위해 음악장르 자동 구분 시스템에 대한 요구와 연구가 활발하다. 이전 논문에서 제안한 소프트 맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템을 더욱 발전시켜 생성적 적대 신경망(GAN)을 이용하여 이전 시스템의 미흡한 점이었던 장르 미분류 곡들에 대한 정확도를 높이는 방법을 제안한다. 이전 연구에서는 전체 곡을 작은 샘플 로 나누고 각각의 샘플을 CNN 분석하여 그 결과들의 총합으로 장르 구분을 하는 투표 시스템으로 곡 장르분류 정확도를 높일 수 있었다. 하지만 곡의 스펙트로그램이 곡의 장르를 파악하기에 모호한 곡의 경우에는 미분류 곡으로 남겨놓을 수밖에 없었다. 이 논문에서는 생성적 적대 신경망을 이용하여 미분류 곡의 스펙트로그램을 판독하기 쉬운 장르의 스펙트로그램으로 바꾸어 미분류 곡의 장르 구분 정확도를 높이는 시스템을 제안하고 그 실험결과 기존 방식에 비해 우수한 결과를 도출해낼 수 있었다.

Keywords

References

  1. S. Kim, D. Kim, and B. Suh, "Music Genre Classification using Multimodal Deep Learning," International Journal of Information and Communication Engineering, vol. 9, no. 4, pp.358-362, Aug. 2011.
  2. J. Bae, J. Kim, "Deep Learnig Music Genre Automatic Classification voting System using Softmax" Journal of the Korea Institute of formation and Communication Engineering, vol. 23, no. 1, pp .27-32, Jan.2019.
  3. B.Macfee, "Learning Content Similarity for Music Recommendation," Journal of latex class files, vol. 6, no. 1, pp.1-2, Jan. 2017.
  4. L. Maaten, G. Hinton, "Learning Content Similarity for Music Recommendation Visualizing Data using T-SNE," Journal of Machine Learning Research, vol. 9, no. 1, pp.2579-2605, Nov. 2008.
  5. T.Yuan. "TF. Learn: TensorFlow's high-level module for distributed machine learning." arXiv preprint arXiv, pp.25-32, vol.1612, no.1,Jan.2016.
  6. L.Yu, O.Tuzel. "Coupled generative adversarial networks." Advances in neural information processing systems. vol.3, no.2, pp.469-477, May. 2016.
  7. B.David, T.Schumm, and L.Metz. "Began: Boundary equilibrium generative adversarial networks." arXiv preprint arXiv, vol.170, no.10717 , pp 32-40, Nov. 2017.
  8. T.Silva, Own work, CC BY-SA 4.0 [Internet]. Available: https://www.freecodecamp.org/news/an-intuitive-introduction-to-generative-adversarial-networks-gans-7a2264a81394/
  9. L. A. Gatys, A. S. Ecker, and M. Bethge, "Image style transfer using convolutional neural networks," in Computer Vision and Pattern Recognition (CVPR), IEEE Conference on. IEEE, vol.2, no.3, pp. 2414-2423, May. 2016.
  10. J. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in IEEE International Conference on Computer Vision, ICCV vol. 35, no. 8, pp. 2242-2251, Jun. 2017.
  11. D. P. Kingma, M. Welling, "Auto-encoding variational bayes," CoRR, vol 4, no.3, pp. 24-27, Sep. 2016.
  12. Y. Bengio, A. C. Courville, and P. Vincent, "Representation learning:A review and new perspectives," IEEE Trans. Pattern Anal. Mach.Intell., vol. 35, no. 8, pp. 1798-1828, Jan.2013. https://doi.org/10.1109/TPAMI.2013.50
  13. J. Chung, S.Ahn, and Y. Bengio, "Hierarchical multiscale recurrent neural networks". In Proc. ICLR, vol. 24, no. 1, pp. 47-54, Mar. 2017.