Analysis of Automatic Topic Classification using Youtube Meta Information

유튜브 메타정보를 이용한 자동 주제 분류 고찰

  • Kim, Yong-Woo (Dept. of Computer Engineering, Kumoh National Institute of Technology) ;
  • Jeon, Seong-Bae (Dept. of Computer Engineering, Kumoh National Institute of Technology) ;
  • Jung, Yuchul (Dept. of Computer Engineering, Kumoh National Institute of Technology)
  • 김용우 (금오공과대학교 컴퓨터공학과) ;
  • 전성배 (금오공과대학교 컴퓨터공학과) ;
  • 정유철 (금오공과대학교 컴퓨터공학과)
  • Published : 2021.01.20

Abstract

Youtube 동영상 업로드 시, 사용자가 직접 주제를 설정해야 하는 어려움이 있다. 본 연구에서는 사용자가 입력하는 제목과 설명정보를 이용하여 자동으로 주제를 분류하는 연구를 진행하였다. 이를 위해 한국어기반의 컨텐츠 중 고빈도의 8개 주제 카테고리를 선정하고, 이를 1.3만건의 학습데이터를 크롤링을 통해 구축하였다. 또한, 다양한 알고리즘들에 대한 최대성능을 확인하기 위해 대표적인 텍스트 분류 방법인 SVM과 LSTM기법 및 BERT 모델기반 미세적용(fine-tuning)을 시도하였다. 결과적으로 Bert-multiligual (base)를 fine-tuning한 실험에서 최대 94%의 정확도를 확인하였다. 하지만, Youtube 동영상 특성상 여러 주제를 가진 것들이 상당수 존재하기에, 실제 체감정확도는 더 높을 것으로 기대된다.

Keywords