A Study of Lightening SRGAN Using Knowledge Distillation

Lee, Yeojin;Park, Hanhoon;

doi:10.9717/kmms.2021.24.12.1598

한국멀티미디어학회논문지 (Journal of Korea Multimedia Society)

제24권12호
/
Pages.1598-1605
/
2021
/
1229-7771(pISSN)
/
2384-0102(eISSN)

한국멀티미디어학회 (Korea Multimedia Society)

DOI QR Code

지식증류 기법을 사용한 SRGAN 경량화 연구

A Study of Lightening SRGAN Using Knowledge Distillation

이여진 ;
박한훈

Lee, Yeojin (Dept. of Electronic Engineering, Pukyong National University) ;
Park, Hanhoon (Dept. of Electronic Engineering, Pukyong National University)

투고 : 2021.10.19
심사 : 2021.12.02
발행 : 2021.12.31

https://doi.org/10.9717/kmms.2021.24.12.1598 인용 PDF KSCI HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

Recently, convolutional neural networks (CNNs) have been widely used with excellent performance in various computer vision fields, including super-resolution (SR). However, CNN is computationally intensive and requires a lot of memory, making it difficult to apply to limited hardware resources such as mobile or Internet of Things devices. To solve these limitations, network lightening studies have been actively conducted to reduce the depth or size of pre-trained deep CNN models while maintaining their performance as much as possible. This paper aims to lighten the SR CNN model, SRGAN, using the knowledge distillation among network lightening technologies; thus, it proposes four techniques with different methods of transferring the knowledge of the teacher network to the student network and presents experiments to compare and analyze the performance of each technique. In our experimental results, it was confirmed through quantitative and qualitative evaluation indicators that student networks with knowledge transfer performed better than those without knowledge transfer, and among the four knowledge transfer techniques, the technique of conducting adversarial learning after transferring knowledge from the teacher generator to the student generator showed the best performance.

키워드

1. 서론

인공신경망의 일종인 CNN(ConvolutionalNeural Network)을 이용한 딥러닝 기술은 다양한 분야에서 우수한 성능을 보이며 널리 활용되고 있고, 관련 기술이 빠르게 발전하고 있다.영상처리 및 컴퓨터 비전기술 중의 하나인 초해상화(super-resolution)분야에서도 CNN을 이용한 연구가 활발히 진행되고 있다 [1].그러나 CNN은 넓고 깊어질수록 표현력이 증가되는 특징을 갖기 때문에 초해상화를 위한 CNN 모델들은 높은 연산량과 많은 메모리를 요구하도록 발전하였다. 결국 우수한 성능을 가진 CNN 모델들은 한정적인 하드웨어 자원을 가진 모바일 또는 IoT (InternetofThings)기기에서는 사용할 수 없다. 이와 같은 문제를 극복하기 위하여 넓고 깊은 네트워크의 성능을 유지하면서 경량화하는 기술이 필요하다. 본 논문에서는 이러한 경량화 기술 중 하나인 지식 증류(knowledgedistillation)[2]를 사용하여 초해상화를 위한 CNN모델인 SRGAN[3]을 경량화하는 방법을 제안한다.구체적으로, 교사 네크워크(기 학습된 SRGAN)의 지식을 경량화된 학생 네트워크로 전달 (transfer)하는 방식이 서로 다른 네 가지 기법을 제시하고, 실험을 통해 정량적 지표와 정성적 지표 관점에서 성능을 비교, 분석하여 성능이 가장 우수한 기법을 찾는다.

본 논문의 구성은 다음과 같다.2장에서는 지식 증류 기술과 GAN을 이용한 초해상화 연구에 대해서 소개하고, 3장에서는 지식증류를 사용하여 SRGAN 을 경량화하기 위한 네 가지 기법을 설명한다. 4장에서는 실험을 통해 네 가지 기법의 정량적, 정성적 성능을 비교, 분석한다.5장에서는 결론과 향후 연구 방향을 제시한다.

2. 관련 연구

2.1 지식증류

지식증류는 기 학습된 깊은 CNN모델의 지식을 전달하여 가벼운 CNN모델의 학습 능력을 향상시키는 기술을 말한다.전달되는 지식의 종류나 전달 방법 등에 따라 다양한 지식증류 기법들이 제안되고 있다[4].처음 소개된 지식증류 기법은 크고 깊은 교사 네트워크의 소프트맥스(softmax)층에서 출력된 확률분포 정보를 완화하여 작고 얕은 학생 네트워크로 전달하는 방식이다[2].그러나, 교사 네트워크의 마지막 층의 지식만 전달하기 때문에 전달되는 지식에 한계가 있다.이런 한계를 개선하기 위해 FitNets [5]는 교사 네트워크의 중간 층의 지식을 함께 전달하여 학생 네트워크가 학습할 수 있도록 하였다. 실험을 통해 이전의 방식[2]보다 학생 네트워크의 성능이 향상됨을 보였고, 지식증류를 통한 네트워크의 파라미터의 수, 연산 횟수, 속도 증가율, 압축율 등에 대한 정량적인 평가 결과를 제시하였다.이후, 교사 네트워크 간에의 주의집중 지도(attention map) 를모방하거나[6], 교사 네트워크 없이 학생 네트워크들의 코호트(cohort)학습하거나[7], 다른 네트워크를 필요로 하지 않고 자가증류(self-distillation)를 통해 학습하는[8] 등 다양한 지식증류 기법들이 제안되었다. 그러나, 이러한 대부분의 지식증류 기법들은 이미지 분류 분야에서 실험이 진행되고 성능 또한 이미지 분류에서만 입증되었다.초해상화 분야에서 지식 증류를 사용한 경량화 연구는 거의 없으며, 최근 특징 지도(featuremap)의 유사도를 모방하도록 학습하는 기법[9]이 제안되었다.

2.2 GAN을 이용한 초해상화

초해상화는 저해상도(low-resolution) 이미지를 입력으로 하여 고해상도(high-resolution) 이미지를 생성하는 기술로, 최신 연구들은 한 장의 저해상도 입력 이미지만을 필요로 하며, 딥러닝 기술을 활용하여 양질의 고해상도 이미지를 생성하는 데 주력하고 있다.초해상화를 위해 다양한 구조나 형태의 CNN 모델들이 활용되고 있으나, 생성된 고해상도 이미지의 지각 품질(perceptualquality)을 향상시키기 위해 GAN(Generative Adversarial Networks)[10]을 이용한 연구가 활발히 진행되고 있다.SRGAN[3]은 초해상화를 위해 개발된 초기 GAN 모델로, 생성자 (generator)와 판별자(discriminator)로 구성된다. 생성자는 초해상화 이미지와 ground-truth의 VGG특징 지도(VGG네트워크[11]의 중간 결과)가 흡사한초해상화 이미지를 생성하도록 학습하고, 판별자는 생성자가 생성한 초해상화 이미지와 ground-truth 를 잘 구별하도록 학습함으로써, 생성자는 학습이 진행될수록 생성자는 다른 CNN기반 초해상화 모델에 비해 정량적인 품질은 떨어지지만 지각 품질이 높은초해상화 이미지를 생성할 수 있다.이후, SRGAN의네트워크 구조를 개선하거나[12], 이미지의 지각 품질을 측정하는 새로운 방법을 적용[13]하여 생성된초해상화 이미지의 지각 품질을 보다 향상시키는 방법들이 제안되고 있다.

3. 지식 전달 방법

본 논문은 초기 지식증류 기법[2]을 SRGAN에 적용할 때 지식을 전달하는 방법에 따른 차이를 분석하여 가장 성능이 뛰어난 지식 전달 방법을 찾는 것을 목표로 한다.이 절은 본 논문에서 사용된 지식 전달 방법에 대해 설명한다.

교사 네트워크인 SRGAN의 손실 함수(lossfunc- tion)는 다음과 같다.우선, 생성자(G)학습을 위한 전체 손실(total loss) \(l_{G}^{\text {Teacher }}\)은 ground-truth인 고해상도 이미지와 초해상화 이미지 사이의 VGG손실 (VGG특징 지도의 차)을 계산한 콘텐츠 손실(con- tent loss) \(l_{c}^{\text {Teacher }}\)과 판별자가 초해상화 이미지를 실제(real)이미지가 아닌 생성자에 의해 생성된 이미지임을 판별할 확률을 나타내는 적대적 손실(adver- sarial loss) \(l_{a}^{\text {Teacher }}\)의 합으로 구성되며 식 (1)과 같다.

\(l_{G}^{\text {Teacher }}=l_{c}^{\text {Teacher }}+l_{a}^{\text {Teacher }}\) (1)

다음으로, 판별자(D)학습을 위한 손실 \(l_{D}^{\text {Teacher }}\)은 생성자가 생성한 초해상화 이미지를 판별자가 실제 이미지라고 판별할 확률과 실제 이미지를 생성 자가생성한 초해상화 이미지라고 판별할 확률을 더한 것과 같다.

지식증류를 통한 학습을 위한 학생 생성자의 전체 손실 \(l_{G}^{\text {Student }}\)은 교사 생성자와 같이 콘텐츠 손실 \(l_{c}^{\text {Student }}\)와 적대적 손실 \(l_{a}^{\text {Student }}\)을 계산하고, 교사 생성자에 의한 초해상화 이미지와 학생 생성자에 의한 초해상화 이미지의 평균 제곱 오차(meansquarederror) 결과인 콘텐츠 손실 l_KD을 계산하여 식 (2)와 같이 합한다.

\(l_{G}^{\text {Student }}=l_{c}^{\text {Student }}+l_{K D}+l_{a}^{\text {Student }}\) (2)

결과적으로 학생 생성자는 ground-truth뿐만 아니라 교사 생성자에 의해 생성된 초해상화 이미지와도 가까운 이미지를 생성한다.여기서, l_KD를 구하기 위해 평균 제곱 오차를 사용한 이유는 사전 실험을 통해 VGG손실을 계산한 것과 평균 제곱 오차를 계산하는 것을 비교했을 때, 평균 제곱 오차를 계산하는 것이 지각 품질이 우수한 결과를 얻는 것을 확인하였기 때문이다.그리고, \(l_{c}^{\text {Student }}\)과 l_KD의 가중치를 달리 함으로써 학생 생성자의 성능이 달라질 수 있으나, 본 논문에서는 동일하게 설정한다. 다음으로 학생 판별자는 교사 판별자와 같이 실제 이미지와 생성자에 의해 생성된 이미지를 잘못 판별할 오차 \(l_{D}^{\text {Student }}\)를 최소화하도록 학습된다.추가로, 학생 생성자에 의해 생성된 이미지와 교사 생성자에 의해 생성된 이미지를 판별하는 판별자를 함께 사용하여 적대적 학습을 진행할 수도 있으나, l_KD에서 평균 제곱 오차를 사용함으로써 추가적인 판별자는 사용하지 않는다.

본 논문에서 사용한 지식 전달 방법은 GAN2GAN, GAN2G, GAN2G+AL, G2G+AL로 총 4가지이다. 첫번째 GAN2GAN 방법은 적대적 학습(adversarial learning)을 통해 생성자와 판별자를 함께 학습 (\(l_{G}^{\text {Teacher }}\)과 \(l_{D}^{\text {Teacher }}\)을 최소화)한 교사 네트워크의 지식을 학생 네트워크 역시 적대적 학습(\(l_{G}^{\text {Student }}\)과 \(l_{D}^{\text {Student }}\) 을 최소화)을 진행하면서 전달받는 방법으로, 교사 네트워크의 지식이 학생 생성자와 판별자 모두에 전달된다. 학생 네트워크는 교사 생성자를 경량화한 생성자와 교사 판별자와 동일한 구조를 가지는 판별자로 구성된다.두 번째 GAN2G방법은 학생 네트워크는 판별자를 갖고 있지 않고, 적대적 학습을 하지 않는다.GAN2GAN방법과 같이 교사 네트워크는 적대적 학습을 통해 학습되며, 학습된 교사 네트워크의 지식은 경량화된 학생 생성자 학습(\(l_{c}^{\text {Student }}\)+l_kd을 최소화)에 사용함으로써 생성자에만 교사 네트워크의 지식이 전달된다.세 번째 GAN2G+AL방법은 경량화된 생성자와 판별자로 구성되며, GAN2G방법과같이 적대적 학습을 통해 학습된 교사 네트워크의 지식을 학생의 생성자에만 전달( \(l_{c}^{\text {Student }}\)+l_kd을 최소화하는 학습을 통해)한 후, 학생 생성자와 판별자는 적대적 학습(\(l_{c}^{\text {Student }}\)+\(l_{a}^{\text {Student }}\)과 \(l_{D}^{\text {Student }}\)을 최소화)을 통해 재학습한다. 마지막으로 G2G+AL 방법은 교사 네트워크 역시 SRGAN의 생성자만 가지고 있고, 생성자만 학습(\(l_{c}^{\text {Teacher }}\)을 최소화)한다.학생 네트워크는 경량화된 생성자와 판별자로 구성되며, 교사 네트워크의 지식은 학생 생성자에만 전달(\(l_{c}^{\text {Student }}\)+l_KD을 최소화하는 학습을 통해)된다. 이후 학생 생성자와 판별자는 적대적 학습(\(l_{c}^{\text {Student }}\)+\(l_{a}^{\text {Student }}\)과 \(l_{D}^{\text {Student }}\)을 최소화)을 통해 재학습한다.

4. 실험 및 분석

4.1 실험 환경

실험은 Intel Core i7-8700 3.20GHz CPU와 Ge ForceRTX3600GPU를 탑재한 PC에서 진행하였다. 실험에 사용된 CNN모델 구현은 Python3.6에서 PyTorch라이브러리를 활용하였다.학습은 DIV2K [14]데이터 셋을 사용하였다.

초해상화 이미지 결과의 화질 평가를 위해 정량적화질 측정 지표인 PSNR(Peak Signal-to-Noise Ratio최대 신호 대 잡음비), SSIM(StructuralSimi- larity Index Measure)과 정성적 평가 지표인 PI(Perceptual Index)[15], DMOS(DifferentialMean OpinionScore)[16]를 측정하였다.여기서, PI는 사람이 평가한 점수와 유사한 상관관계를 가지고 있으며 무참 조(no-reference) 이미지 품질 점수인 Ma[17]와 NIQE(NaturalnessImageQualityEvaluator)[18]로 부터 계산된다.즉 초해상화 이미지 I_SR의 PI값은 식 (3)과 같다.

\(\mathrm{PI}=\frac{1}{2}\left(\left(10-\mathrm{Ma}\left(\mathrm{I}_{\mathrm{SR}}\right)\right)+\mathrm{NIQE}\left(\mathrm{I}_{\mathrm{SR}}\right)\right)\) (3)

PI는 낮을수록 더 나은 성능을 의미한다. DMOS는 MOS보다 더 정교한 주관 평가 지표로 피실험자 개인의 경향을 표준화하여 동일한 범위로 측정하는 방식이다.

\(d_{i j}=r_{i r e f(j)}-r_{i j}\) (4)

\(z_{i j}=\left(d_{i j}-\overline{d_{i j}}\right) / \sigma_{i}\) (5)

식 (4)의 r_ij과 r_iref(j)을 i번째 피실험자가 j번째 초해상화 이미지와 ground-truth이미지에 대해 각각 부여한 점수이고, 식 (5)의 \(\overline{d_{i}}\)는 d_ij의 평균, σ_i는 d_ij의 표준편차이다. z_ij는 -3~3의 값을 가지므로, 0~100 사이의 값을 갖도록 한 후, N명의 피실험자의 j번째초해상화 이미지에 대한 DMOS값은 식 (6)과 같이 계산된다.

\(\operatorname{DMOS}_{j}=\frac{1}{N} \sum_{i=1}^{N} \frac{100\left(z_{i j}+3\right)}{6}\) (6)

Table1과 Fig.1은 실험에 사용된 교사 네트워크와 학생 네트워크의 파라미터와 구조도이다.Filters 와 Resblocks는 각각 생성자의 컨볼루션 계층(Con- volutionlayer)필터와 Residual블록 개수로 학생 생성자는 교사 생성자의 필터 개수와 블록의 수를 1/2로 줄임으로써, 교사 생성자의 파라미터 수를 약 6.24배 경량화하였다.

Table 1. Network parameters of teacher and student generators used in our experiments.

MTMDCW_2021_v24n12_1598_t0002.png 이미지

MTMDCW_2021_v24n12_1598_f0001.png 이미지

Fig. 1. Structure of teacher and student networks.

4.2 실험 결과

Table2는 네 가지 지식 전달 방법의 정량적 성능평가를 위한 PSNR과 SSIM계산 결과이다. 계산은서로 다른 테스트 데이터 셋에서 진행되었고, 굵게 표시된 것이 가장 높은 값을 나타낸 것이다. 결과적으로, 지식 전달 방법에 상관없이 지식증류를 받은 학생 네트워크가 지식증류를 받지 않은 학생 네트워크보다 PSNR과 SSIM이 높은 것을 확인할 수 있으며, Set14과 Urban100데이터 셋의 SSIM값을 제외한 모든 PSNR과 SSIM값은 G2G+AL방법에서 가장 높았다.이를 통해, 초해상화를 위해 지식증류 기법[2]을 사용할 경우 G2G+AL방법을 통해 지식을 전달하는 것이 가장 효과적인 것을 확인하였다. 또한지식증류를 하더라도 학생 네트워크는 교사 네트워크보다 성능이 떨어지지만, G2G+AL방법의 PSNR 의 경우 교사의 PSNR보다 높게 측정된 것도 확인할 수 있다.

Table 2. PSNR and SSIM results of four knowledge transfer methods on different test datasets.

MTMDCW_2021_v24n12_1598_t0001.png 이미지

Table3은 10명의 평가자(대학생)들의 주관적 화질 평가(1~5점 부여)를 통해 임의의 10장의 이미지에 대해 각 지식 전달 방법의 DMOS값을 구한 결과를 보여준다.빨간색으로 표시한 값은 각 이미지마다 가장 높은 값을 뜻하며 파란색은 다음으로 높은 값을 뜻한다.평가 결과, 네 가지 지식 전달 방법 중 G2G+ AL 방법이 최고점을 가장 많이 받았고 다음으로 GAN₂G+AL방법인 것을 확인할 수 있다.즉, 정량적 평가 결과와 마찬가지로, 적대적 학습을 하지 않은 교사 생성자의 지식을 학생 생성자로 전달하고 학생 네트워크를 적대적 학습을 통해 재학습하는 것이 가장 성능이 좋은 것을 알 수 있다.또한 GAN₂G+AL 방법이 GAN₂G방법보다 높은 점수를 받음으로써 학생 생성자가 적대적 학습을 진행한 교사 생성자의 지식을 전달받더라도 스스로 적대적 학습을 다시 진행하는 것이 정성적 성능 지표 면에서는 확실히 우수한 결과를 얻을 수 있음을 알 수 있다.

Table 3. DMOS results of four knowledge transfer methods on randomly selected ten images.

MTMDCW_2021_v24n12_1598_t0003.png 이미지

Table4는 Table3에서 사용된 10장의 이미지에 대한 평균 PI값을 보여주며, 빨간색으로 표시한 값이 가장 높은 값, 파란색으로 표시한 값이 그다음으로 높은 값을 의미한다.다른 정량적, 정성적 평가지표에서와 달리, GAN2G+AL방법이 가장 높은 값을 얻었다.그러나, G2G+AL방법이 두 번째로 높은 PI값을 얻었다.

Table 4. Mean PI of four knowledge transfer methods.

MTMDCW_2021_v24n12_1598_t0004.png 이미지

Fig.2는 각 지식 전달 방법의 초해상화 결과를 시각적으로 비교하여 보여준다.교사 네트워크의 결과에 대한 지식만 전달하는 지식증류 기법[2]의 한계로 인해 지식증류를 하더라도 교사 네트워크만큼 화질이 개선되진 않았지만, 지식증류를 하지 않은 학생 네트워크에 비해서는 지식 전달 방법에 상관없이 화 질이 크게 개선되었다.지식 전달 방법에 따른 화질의 차이는 시각적으로 크진 않았지만, 전반적으로 GAN2G+AL의 결과가 경계선 영역이 가장 뚜렷하고 선명하게 복원되는 것을 확인할 수 있었다.

MTMDCW_2021_v24n12_1598_f0002.png 이미지

Fig. 2. Visual comparison of results of four knowledge transfer methods.

최종적으로 실험 결과를 통해, SRGAN에 지식 증류 기법[2]을 적용할 때, 정량적 평가 지표가 우수한초해상화를 위해서는 G2G+AL방법을 사용하는 것이 좋고, 정성적 평가 지표가 우수한 초해상화를 위해서는 G2G+AL방법이나 GAN2G+AL방법을 사용하는 것이 좋음을 알 수 있다.이는 학생 네트워크는 생성자만 교사 네트워크의 지식을 전달받도록 학습한 후 적대적 학습을 통해 재학습하는 것이 정량적 평가 지표나 정성적 평가 지표 모든 면에서 좋음을 의미한다.

5. 결론

본 논문에서는 실험을 통해 SRGAN에 지식증류기 법을 적용할 때 지식을 전달하기 위한 네 가지 방법을 제시하고, 정량적, 정성적 성능이 가장 우수한 방법을 실험을 통해 확인하였다.실험 결과, 지식 전달 방법과 상관없이 교사 네트워크의 지식을 전달받은 학생 네트워크는 지식을 받지 않은 학생 네트워크보다 정량적, 정성적 성능이 우수함을 확인하였고, 교사 네트워크의 지식은 학생 생성자에게 전달하여 학생 생성자를 학습한 후 적대적 학습을 통해 학생 생성자와 판별자를 재학습하는 것이 정량적 평가 지표나 정성적 평가 지표 모든 면에서 가장 우수한 성능을 보여주었다.

본 논문은 교사 네트워크의 결과에 대한 지식만 전달하는 지식증류 기법[2]을 초해상화 딥러닝 모델인 SRGAN에 적용한 것으로, 교사 네트워크의 제한된 지식이 전달되기 때문에, 경량화된 학생 네트워크의 성능은 지식증류를 하더라도 여전히 교사 네트워크의 성능과 큰 차이를 보였다.따라서, 최근에 제안된 지식증류 기법들을 적용하여 학생 네트워크의 성능을 보다 개선하는 연구를 진행할 예정이다.

참고문헌

D. Lee, H.S. Lee, K. Lee, and H.-J. Lee, "Fast Very Deep Convolutional Neural Network with Deconvolution for Super-Resolution," Journal of Korea Multimedia Society, Vol. 20, No. 11, pp. 1750-1758, 2017. https://doi.org/10.9717/KMMS.2017.20.11.1750
G. Hinton, O. Vinyals, and J. Dean, "Distilling the Knowledge in a Neural Network," Proceeding of NIPS 2014 Deep Learning and Representation Learning Workshop, 2014.
C. Ledig, L. Theis, F. Huszar, J. Caballero, A.P. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, "Photo-Realistic Single Image Super- Resolution Using a Generative Adversarial Network," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 105-114, 2017.
J. Gou, B. Yu, S.J. Maybank, and D. Tao "Knowledge Distillation: A Survey," International Journal of Computer Vision, Vol. 129, pp. 1789-1819, 2021. https://doi.org/10.1007/s11263-021-01453-z
A. Romero, N. Ballas, S.E. Kahou, A. Chassang, C. Gatta, and Y. Bengio, "FitNets: Hints for Thin Deep Nets," Proceeding of the International Conference on Learning Representations, 2015.
N. Komodakis and S. Zagoruyko, "Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer," Proceeding of the International Conference on Learning Representations, 2017.
Y. Zhang, T. Xiang, T.M. Hospedales, and H. Lu, "Deep Mutual Learning," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 4320-4328, 2018.
L. Zhang, J. Song, A. Gao, J. Chen, C. Bao, and K. Ma, "Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation," Proceeding of International Conference on Computer Vision, pp. 3713-3722, 2019.
Z. He, T. Dai, J. Lu, Y. Jiang, and S.-T. Xia, "Fakd: Feature-Affinity Based Knowledge Distillation for Efficient Image Super-Resolution," Proceeding of IEEE International Conference on Image Processing, pp. 518-522, 2020.
I.J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A.C. Courville, and Y. Bengio, "Generative Adversarial Networks," arXiv preprint, arXiv:1406.2661, 2014.
K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv preprint, arXiv:1409.1556, 2014.
X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, Y. Qiao, and C.C. Loy, "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks," Proceeding of European Conference on Computer Vision, pp. 63-79, 2018.
X. Zhu, L. Zhang, L. Zhang, X. Liu, Y. Shen, and S. Zhao, "GAN-Based Image Super-Resolution with a Novel Quality Loss," Mathematical Problems in Engineering, Vol. 2020, Article ID 5217429, 2020.
E. Agustsson and R. Timofte, "Ntire 2017 Challenge on Single Image Super-Resolution: Dataset and Study," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 126-135, 2017.
Y. Blau, R. Mechrez, R. Timofte, T. Michaeli, and L. Zelnik-Manor, "The 2018 PIRM Challenge on Perceptual Image Super-Resolution," Proceeding of European Conference on Computer Vision, 2018.
H.R. Sheikh, M.F. Sabir, and A.C. Bovik, "A Statistical Evaluation of Recent Full Reference Image Quality Assessment Algorithms," IEEE Transactions on Image Processing, Vol. 15, No. 11, pp. 3440-3451, 2006. https://doi.org/10.1109/TIP.2006.881959
C. Ma, C.Y. Yang, X. Yang, and M.-H. Yang, "Learning a No-Reference Quality Metric for Single-Image Super-Resolution," Computer Vision and Image Understanding, Vol. 158, pp. 1-16, 2017. https://doi.org/10.1016/j.cviu.2016.12.009
A. Mittal, R. Soundararajan, and A.C. Bovik, "Making a Completely Blind Image Quality Analyzer," IEEE Signal Processing Letters, Vol. 20, No. 3, pp. 209-212, 2013. https://doi.org/10.1109/LSP.2012.2227726

한국멀티미디어학회논문지 (Journal of Korea Multimedia Society)

지식증류 기법을 사용한 SRGAN 경량화 연구

A Study of Lightening SRGAN Using Knowledge Distillation

초록

키워드

1. 서론

2. 관련 연구

2.1 지식증류

2.2 GAN을 이용한 초해상화

3. 지식 전달 방법

4. 실험 및 분석

4.1 실험 환경

4.2 실험 결과

5. 결론

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)