Multi-Modal based ViT Model for Video Data Emotion Classification

영상 데이터 감정 분류를 위한 멀티 모달 기반의 ViT 모델

  • Yerim Kim (Department of Future Convergence Technology Engineering Sungshin Women's University) ;
  • Dong-Gyu Lee (Department of Future Convergence Technology Engineering Sungshin Women's University) ;
  • Seo-Yeong Ahn (Department of Future Convergence Technology Engineering Sungshin Women's University) ;
  • Jee-Hyun Kim (Department of Future Convergence Technology Engineering Sungshin Women's University)
  • 김예림 (성신여자대학교 미래융합기술공학과) ;
  • 이동규 (성신여자대학교 미래융합기술공학과) ;
  • 안서영 (성신여자대학교 미래융합기술공학과) ;
  • 김지현 (성신여자대학교 미래융합기술공학과)
  • Published : 2023.01.11

Abstract

최근 영상 콘텐츠를 통해 영상물의 메시지뿐 아니라 메시지의 형식을 통해 전달된 감정이 시청하는 사람의 심리 상태에 영향을 주고 있다. 이에 따라, 영상 콘텐츠의 감정을 분류하는 연구가 활발히 진행되고 있고 본 논문에서는 대중적인 영상 스트리밍 플랫폼 중 하나인 유튜브 영상을 7가지의 감정 카테고리로 분류하는 여러 개의 영상 데이터 중 각 영상 데이터에서 오디오와 이미지 데이터를 각각 추출하여 학습에 이용하는 멀티 모달 방식 기반의 영상 감정 분류 모델을 제안한다. 사전 학습된 VGG(Visual Geometry Group)모델과 ViT(Vision Transformer) 모델을 오디오 분류 모델과 이미지 분류 모델에 이용하여 학습하고 본 논문에서 제안하는 병합 방법을 이용하여 병합 후 비교하였다. 본 논문에서는 기존 영상 데이터 감정 분류 방식과 다르게 영상 속에서 화자를 인식하지 않고 감정을 분류하여 최고 48%의 정확도를 얻었다.

Keywords

Acknowledgement

이 연구는 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 "동영상 콘텐츠 하이라이트 편집 및 설명(요약) 데이터"를 활용하여 수행된 연구입니다. 본 연구에 활용된 데이터는 AI 허브(aihub.or.kr)에서 다운로드 받으실 수 있습니다.