뮤직비디오 브라우징을 위한 중요 구간 검출 알고리즘

Salient Region Detection Algorithm for Music Video Browsing

  • 김형국 (광운대학교 전파공학과) ;
  • 신동 (광운대학교 전파공학과)
  • 발행 : 2009.02.28

초록

본 논문은 모바일 단말기, Digital Video Recorder (DVR) 등에 적용할 수 있는 뮤직비디오 브라우징 시스템을 위한 실시간 중요 구간 검출 알고리즘을 제안한다. 입력된 뮤직비디오는 음악 신호와 영상 신호로 분리되어 음악 신호에서는 에너지기반의 음악 특징값 최고점기반의 구조분석을 통해 음악의 후렴 구간을 포함하는 음악 하이라이트 구간을 검출하고, SVM AdaBoost 학습방식에서 생성된 모델을 이용해 음악신호를 분위기별로 자동 분류한다. 음악신호로부터 검출된 음악 하이라이트 구간과 영상신호로부터 검출된 가수, 주인공의 얼굴이 나오는 영상장면을 결합하여 최종적으로 중요구간이 결정된다. 제안된 방식을 통해 사용자는 모바일 단말기나 DVR에 저장되어 있는 다양한 뮤직비디오들을 분위기별로 선택한 후에 뮤직비디오의 30초 내외의 중요구간을 빠르게 브라우징하여 자신이 원하는 뮤직비디오를 선택할 수 있게 된다. 제안된 알고리즘의 성능을 측정하기 위해 200개의 뮤직비디오를 정해진 수동 뮤직비디오 구간과 비교하여 MOS 테스트를 실행한 결과 제안된 방식에서 검출된 중요 구간이 수동으로 정해진 구간보다 사용자 만족도 측면에서 우수한 결과를 나타내었다.

This paper proposes a rapid detection algorithm of a salient region for music video browsing system, which can be applied to mobile device and digital video recorder (DVR). The input music video is decomposed into the music and video tracks. For the music track, the music highlight including musical chorus is detected based on structure analysis using energy-based peak position detection. Using the emotional models generated by SVM-AdaBoost learning algorithm, the music signal of the music videos is classified into one of the predefined emotional classes of the music automatically. For the video track, the face scene including the singer or actor/actress is detected based on a boosted cascade of simple features. Finally, the salient region is generated based on the alignment of boundaries of the music highlight and the visual face scene. First, the users select their favorite music videos from various music videos in the mobile devices or DVR with the information of a music video's emotion and thereafter they can browse the salient region with a length of 30-seconds using the proposed algorithm quickly. A mean opinion score (MOS) test with a database of 200 music videos is conducted to compare the detected salient region with the predefined manual part. The MOS test results show that the detected salient region using the proposed method performed much better than the predefined manual part without audiovisual processing.

키워드

참고문헌

  1. C. Xu, X. Shao, N.C. Maddage and M.S. Kankanhalli, "Automatic music video summarization based on audio-visual-text analysis and alignment," Proc. 28th Annual ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, pp. 361-368, 2005 https://doi.org/10.1145/1076034.1076097
  2. C. H. Yeh and H. H. Lin, "The extraction of popular music chorus structural content analysis," Proc. Industrial Electronics Soceity (IECON): 33rd Annual Conference IEEE, Taipei, Taiwan, pp. 2532-2536, 2007 https://doi.org/10.1109/IECON.2007.4460110
  3. M. A. Goto, "Chorus-section detecting method for music audio signals," Proc. IEEE International Conference on Acou-stics, Speech, and Signal Processing (ICASSP), New York, U.S.A., pp. 437-440, Apr. 2003
  4. H.-G. Kim, N. Moreau and T. Sikora, “Audio classification based on MPEG-7 spectral basis representations,” IEEE Trans-action Circuits and Systems for Video Technology, vol. 14, no. 5, pp. 716-725, May 2004 https://doi.org/10.1109/TCSVT.2004.826766
  5. X. Zhu, Y.Y. Shi, H.-G. Kim and K.-W. Eom, "An integrated music recommendation system," IEEE Transaction on Con-sumer Electronics, vol. 52, no. 3, pp. 917-925, Aug. 2006 https://doi.org/10.1109/TCE.2006.1706489
  6. P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," Proc. Computer Vision and Pattern Recognition (CVPR), Netherlands, pp. 511-518, 2001 https://doi.org/10.1109/CVPR.2001.990517