DOI QR코드

DOI QR Code

A Study on Performance Improvement of GVQA Model Using Transformer

트랜스포머를 이용한 GVQA 모델의 성능 개선에 관한 연구

  • Park, Sung-Wook (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University) ;
  • Kim, Jun-Yeong (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University) ;
  • Park, Jun (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University) ;
  • Lee, Han-Sung (School of Creative Convergence, Andong National University) ;
  • Jung, Se-Hoon (School of Creative Convergence, Andong National University) ;
  • Sim, Cun-Bo (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University)
  • 박성욱 (순천대학교 IT-Bio융합시스템전공) ;
  • 김준영 (순천대학교 IT-Bio융합시스템전공) ;
  • 박준 (순천대학교 IT-Bio융합시스템전공) ;
  • 이한성 (안동대학교 창의융합학부) ;
  • 정세훈 (안동대학교 창의융합학부) ;
  • 심춘보 (순천대학교 IT-Bio융합시스템전공)
  • Published : 2021.11.04

Abstract

오늘날 인공지능(Artificial Intelligence, AI) 분야에서 가장 구현하기 어려운 분야 중 하나는 추론이다. 근래 추론 분야에서 영상과 언어가 결합한 다중 모드(Multi-modal) 환경에서 영상 기반의 질의 응답(Visual Question Answering, VQA) 과업에 대한 AI 모델이 발표됐다. 얼마 지나지 않아 VQA 모델의 성능을 개선한 GVQA(Grounded Visual Question Answering) 모델도 발표됐다. 하지만 아직 GVQA 모델도 완벽한 성능을 내진 못한다. 본 논문에서는 GVQA 모델의 성능 개선을 위해 VCC(Visual Concept Classifier) 모델을 ViT-G(Vision Transformer-Giant)/14로 변경하고, ACP(Answer Cluster Predictor) 모델을 GPT(Generative Pretrained Transformer)-3으로 변경한다. 이와 같은 방법들은 성능을 개선하는 데 큰 도움이 될 수 있다고 사료된다.

Keywords

Acknowledgement

This work was supported by the BK21 plus program through the National Research Foundation (NRF) funded by the Ministry of Education of Korea(5199990214660)