A research on the possibility of restoring cultural assets of artificial intelligence through the application of artificial neural networks to roof tile(Wadang)

Kim, JunO;Lee, Byong-Kwon;

doi:10.9708/jksci.2021.26.01.019

Journal of the Korea Society of Computer and Information (한국컴퓨터정보학회논문지)

Volume 26 Issue 1
/
Pages.19-26
/
2021
/
1598-849X(pISSN)
/
2383-9945(eISSN)

Korean Society of Computer Information (한국컴퓨터정보학회)

DOI QR Code

A research on the possibility of restoring cultural assets of artificial intelligence through the application of artificial neural networks to roof tile(Wadang)

Kim, JunO (Dept. of Multimedia, Dongguk University) ;
Lee, Byong-Kwon (Dept. of Multimedia, Seowon University)

Received : 2020.11.26
Accepted : 2021.01.07
Published : 2021.01.29

https://doi.org/10.9708/jksci.2021.26.01.019 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Cultural assets excavated in historical areas have their own characteristics based on the background of the times, and it can be seen that their patterns and characteristics change little by little according to the history and the flow of the spreading area. Cultural properties excavated in some areas represent the culture of the time and some maintain their intact appearance, but most of them are damaged/lost or divided into parts, and many experts are mobilized to research the composition and repair the damaged parts. The purpose of this research is to learn patterns and characteristics of the past through artificial intelligence neural networks for such restoration research, and to restore the lost parts of the excavated cultural assets based on Generative Adversarial Network(GAN)[1]. The research is a process in which the rest of the damaged/lost parts are restored based on some of the cultural assets excavated based on the GAN. To recover some parts of dammed of cultural asset, through training with the 2D image of a complete cultural asset. This research is focused on how much recovered not only damaged parts but also reproduce colors and materials. Finally, through adopted this trained neural network to real damaged cultural, confirmed area of recovered area and limitation.

역사적 지역에서 발굴되는 문화재는 시대적 배경을 바탕으로 고유의 특징을 가지고 있으며, 역사와 전파 지역의 흐름에 따라 그 문양과 특징이 조금씩 변화하는 것을 볼 수 있다. 어떤 지역에서 발굴된 문화재는 그 당시의 문화를 대표하며 온전한 모습을 유지하는 것도 있지만, 대부분이 파손/손실되거나 일부분으로 나누어져 그 구성을 연구하고 파손된 부분을 복구하기 위해 많은 전문가가 동원된다. 이 연구의 목적은 이러한 복원연구에 인공지능 신경망을 통해 과거의 문양과 패턴들을 학습시키고, 출토된 문화재에서 손실된 부분을 복원시키는 데 있으며, 문화재를 복원하기 위해 기본적인 생성적 적대 신경망인 GAN(Generative Adversarial Network)[1]을 사용한다. 연구에서는 GAN을 기반으로 출토된 문화재 일부를 기반으로 하여 손상/손실된 나머지 부분을 복구한 연구 과정으로, 학습에 기반이 되는 온전한 문화재의 이미지로 훈련을 하고, 일부를 마음대로 손상해 복구할 수 있도록 했다. 연구는 문화재 복구에 있어, 시대적 특징을 어느 정도 복구하는지, 색상과 재질을 복구하는지에 중점을 두고 있다. 마지막으로는 실제 출토된 비슷한 문화재를 기반으로 훈련된 신경망을 사용하여 문양을 복구함으로써 인공신경망의 적용 범위를 연구한다.

Keywords

I. Introduction

문화재는 시대의 정보를 담고 있어 지나간 역사를 추론하는데 기준이 되는 정보를 제공한다. 또한, 제작자의 시대적 경험에 따라 변경된 문양과 스타일이 적용되기도 하여 문화의 지역적 특징이 어떻게 결합 되었는지 알기도 하며, 전파경로를 통해 역사를 검증하는 자료로 사용되기도 한다.

본 연구에서는 문화재 중에서 “탑”을 소재로 하여 복원을 연구하고 있으며, 우리나라의 종교와 매우 관련이 깊어 흥미로운 특징을 가지고 있다. 시대적 배경과 생성 지역에 따라 비슷한 특징을 이어가기도 하고, 새로운 특징이 나타나기도 한다. 다만, 이러한 “탑”은 그 다양성이 많지 않고, 제작자의 미상으로 시대적 순서로 나열하기 어려움이 있으며, 따라서 앞으로의 계속된 연구에서 데이터를 어떻게 추출할지, 특징을 어떻게 규정할지에 대한 연구가 필요하다.

따라서, 이번 연구에서는 탑의 전체 구조 복원 연구가 아닌, 탑의 보륜, 옥개, 낙수면과 같이 시대에 따라 특징이 조금씩 변하는 탑 일부의 복구를 목적으로 했다.(Fig 1) 나아가, 연구의 보다 명확한 결과를 얻기 위해 중요한 패턴 이 분명하고 시대적 배경이 나름대로 정리되어 있는 와당을 연구 대상으로 삼았다. 와당은 탑의 낙수면과 같은 시대적 특징을 보유하고 있으며, 특히 중심을 기준으로 원형의 공동적인 특징을 가지고 있어 인공신경망의 학습과 결과를 검증하는데 매우 적합하다. (FIg 2.).

CPTSCQ_2021_v26n1_19_f0001.png 이미지

Fig. 1. parts name of pagoda. and focused on parts of recovery[2]

CPTSCQ_2021_v26n1_19_f0002.png 이미지

Fig. 2. Koguryo’s Roofend tiles

문화재의 미술적 특징도 담고 있는 “와당”은 기와를 입혀 내려온 끝을 암키와는 호형(弧形), 수키와는 원형으로 막는데, 이 부분을 평와당(平瓦當)·원와당(圓瓦當)이라 하고 우리나라에서는 예로부터 암막새기와·수막새기와라고 불렀다. 와당에는 적당한 문양을 조각하며, 이 문양은 시대에 따라 변화가 있으므로 미술사 연구의 대상이 된다. 삼국시대부터 쓰기 시작한 와당은 조선시대까지 계속 사용되면서 시대에 따라 특징 있게 변화한다.[3]

Fig 2. 문양을 학습시키기 위해 시각적인 성능이 검증된 CNN(Convolution Neural Network)[4]기반의 GAN(Generative Adversarial Network)을 사용했다. CNN은 시각적 데이터의 특징 추출에서 탁월한 성능을 보여줬으며, 본 연구에서 문화재 “와당”의 2D 이미지를 학습하고 특징을 추출하는데 사용되었다. 이렇게 추출된 특징은 GAN을 통해 손상된 부분을 생성하였으며, 연구에서는 출토된 조각의 데이터를 활용하기 위해 시대를 대표하는 정상적인 이미지 데이터를 통해 훈련하고, 임의적으로 이미지의 일부를 손상시켜 복구하는 훈련을 시켰다.

손상된 부분을 복구하는 신경망은 기본적인 오토인코더(Autoencoder)를 기반으로 한다. 학습데이터가 한정되어 있는 문화재는 다양한 학습 데이터를 준비하기 어렵기 때문에 오토인코더를 사용하여 보다 명확한 가중치를 값을 얻을 수 있었다. 훈련된 스텍형 오토인코더는 노이즈를 줄일 뿐만 아니라, 손실된 부분의 특징을 복구하는데 탁월한 성능을 보였다.[5]

훈련에 사용된 “와당” 이미지는 약 100종의 컬러와 흑백 데이터를 사용하였고, 백만 번의 훈련을 통해 손실된 데이터를 어느 정도 복구하는데 성공했다.

본 논문은 CNN을 기반으로 온전한 문화재의 2D 이미지 특징을 추출하고, 임의적으로 손상 또는 제거를 통해 문화재 복원에 인공지능 신경망을 적용할 수 있는지 검증한다. 이러한 검증을 통해 문제점을 돌출하여 문화재에 대한 2D 이미지 데이터 취득과 보관 방법을 정리하고, GAN을 통해 복구 수준을 검증한다. 문화재는 일반적인 이미지 복구나 생성과 다르게 주어지는 문양과 재질을 바탕으 로 필수적인 특징을 추출해야 한다. 따라서, 와당이라는 문화재를 통해 1) 유사한 패턴과 동일 시대의 와당을 통해 학습하고 복구, 2) 다양한 시대의 와당을 학습하고 복구로 나눔으로써 GAN의 유효성을 검증한다. 마지막으로, 와당의 재료에 따른 색상, 재질, 표면의 특징들에 대해 얕은 레이어에서의 추출과, 깊은 레이어에서의 원활한 복구가 될 수 있는지 연구하는 내용으로 이루어져 있다. 2절에서는 본 연구와 관련된 연구 및 조사에 대하여 3절에서는 제안하는 인공지능 알고리즘 방법론 및 평가결과를 4절에서는 결론으로 구성되었다.

II. Preliminaries

2.1 CNN(Convolution Neural Network)

문화재의 특성은 다양성에 비해 풍부한 학습 자료를 얻기 어려워 인공지능을 통해 특징을 추출하고 분류하기 매우 까다로운 환경을 가지고 있다. 이 문제는 특징을 추출하는데 있어 일관성의 부족으로 인해 대표적인 특징들인 몇몇 문양과 테두리만 특징으로 추출되는 결과를 초래한다. 본 연구에서 CNN은 문화재복구를를 위해 제공할 2D 이미지 데이터 처리를 위해 개념적으로 적용되며, CNN을 기 반으로 하는 오토엔코더와 GAN을 사용하여 학습 데이터 부족을 최대한 극복하고 이미지 복구에 사용한다.

일반적으로 발굴이 되면 생성시대와 장소 추론하고, 사용처와 건물 또는 어떤 물체의 부분인지를 예측하여 그 당시 비슷한 문화재와 비교하여 복구된다.

CNN은 이미지의 특징을 추출하는데 포괄적으로 사용되었으며, 이 연구에서 고구려 시대의 “와당”에 대해 스스로 분류하며 학습했다.

딥러닝에서 Convolutional Neural Network(CNN, 또는 ConvNet )은 딥뉴럴네트워크의 한 클레스이다. 가장 일반적으로 시각적 이미지를 분석에 적용하고, 공유 가중치 아키텍처 및 변경 불변 특징을 기반으로 시프트 불변(Shift invariant) 또는 공간 불변 인공 신경망(Space invariant artificial neural networks) 이라고도 한다.[6][7]. Fig 3. 기술은 비디오 인식, 추천시스템, 화상 분류, 의료 이미지 분석, 자연어 처리 및 금융데이터의 시계열화에 사용되기도 한다.

CPTSCQ_2021_v26n1_19_f0003.png 이미지

Fig. 3. General CNN and classification

이 연구에서 CNN을 통해 와당의 공통적인 특징인 1)중심을 기준으로 반복적인 문양, 2)바깥쪽을 구분하는 원형의 특징, 3)일부분의 문양을 기반만으로 그 특징을 추출할 수 있는지에 대해 초점을 맞췄다.

2.2 Auto-encoder

오토인코더(Autoencoder)는 인공신경망을 학습하는데 효율적인 데이터 코딩을 자율적으로 하는 방식이다. 신경망은 단순히 입력을 출력으로 복사하는 신경망이며, 여러 가지 방법으로 제약을 줌으로써 어려운 문제를 해결하는 신경망으로 만든다. 이러한 제약을 통해 특징을 표현하도록 제어하는 신경망이며, 유용한 속성을 갖도록 한다.

CPTSCQ_2021_v26n1_19_f0004.png 이미지

Fig. 4. Basic structure of Autoencoder

가장 간단한 형태의 오토 인코더는 다중 레이어 퍼셉트론(MLP)에 참여하는 단일 레이어 퍼셉트론과 유사한 피드 포워드, 비반복 신경망이다. 입력 레이어, 출력 레이어 및 이들을 연결하는 하나 이상의 은닉 레이어가 있다. 여기서 출력 레이어 입력 레이어와 동일한 수의 노드 (뉴런)를 가지며 목표 값을 예측하는 대신 입력을 재구성(입력과 출력 간의 차이 최소화) 할 목적으로 X와 X’가 주어 진다.. 따라서 오토 인코더는 비지도 학습 모델이다.[8] 오토 인코더는 인코더와 디코더의 두 부분으로 구성되며 다음과 같이 전환하여 최소의 loss값을 찾도록 훈련된다.

\(h=\sigma\left(W_{e} x+b_{e}\right)\)........(1)

\(x^{\prime}=\sigma\left(W_{d} h+b_{d}\right)\)........(2)

오토인코더는 입력층에 대해서 위의 공식 (1)로 나타낼 수 있으며, 출력층은 대칭이 되도록 구성했으므로 공식 (2)와 같이 구성된다.

\(\begin{aligned} &\phi: \mathcal{X} \rightarrow \mathcal{F} \\ &\psi: \mathcal{F} \rightarrow \mathcal{X} \\ &\phi, \psi=\underset{\phi, \psi}{\arg \min }\|X-(\psi \circ \phi) X\|^{2} \end{aligned}\)........(3)

두 함수의 정의를 간편하게 (3)과 같이 표시하여 각 가중치가 최소가 되는 방향으로 학습하게 된다. 이러한 평가 방식은 다음에 이야기할 GAN의 학습 방식과 비슷하다.

연구에서 오토인코더는 부족한 학습 데이터로 인해 훈련에 충분하지 않은 신경망을 강화하는데 사용되었다. 특히 역전파(Back propagation)를 통해 빠른 학습과 노이즈(손상된 부분)에 대해 GAN만으로 학습하는 것 보다 정확성을 높일 수 있다. 이를 통해 와당의 전체적인 특징을 학습시켜 특징들의 규칙에 대한 훈련을 목적으로 했다.

2.3 GAN(generative adversarial network)

2014년에 처음 선보인 이안 굿펠로우(Ian Goodfellow)의 GAN(Generative Adversarial Network)[1] 모델은 서서히 냉각되던 딥 러닝에 대한 열기를 다시 활활 타오르게 한 연구결과이다. 적대적 생성 모델인 GAN은 판별자(Discriminator)와 생성자(Generator)로 이루어지며, 오 토엔코더와 다르게 노이즈로 Seed를 생성하여 경쟁적으로 원래의 데이터를 찾아내도록 하는 신경망이다. 따라서, 판별자와 생성자는 함께 훈련되며, 신경망의 가중치도 점점 비슷해진다. 즉, 가짜(Fake) 데이터를 생성하여 비교하며 신경망을 업데이트하고, 점점 Seed를 원본에 맞게 찾아가는 구조이다.

CPTSCQ_2021_v26n1_19_f0005.png 이미지

Fig. 5. Example diagram of GAN[9]

연구에서 GAN은 문화재 복구에서, 손상된 부분을 사진으로 촬영하여 2D 데이터를 만들고, 손상된 데이터를 복구하는 단계에 사용된다. 일반적으로 GAN은 다음과 같은 대표적인 목적으로 사용되었다.

(1) 저해상도 이미지를 고해상도 이미지로 변환

(2) 흑백 이미지를 컬러 이미지로 변환

(3) 이미지의 깨진 부분을 복원

이외에도 신경망 연구에 따라 그 활용 범위가 확대되고 있다.[10]

2.4 StyleGAN

StyleGAN은 GPU의 성능 향상으로 더 깊은 신경망의 학습시간을 단축시켜 주어보다 다양한 연구가 가능했으며, 문화재 복원에 새로운 방법을 제시해 줬다.

최근 Generative Adversarial Network (GAN)를 기반으로 한 이미지 합성 기술은 BEGAN[11], PGGAN[12] 등을 거치며 눈부신 발전을 거듭하고 있다. 그러나 Generator를 통한 이미지 합성 과정은 여전히 black box로 여겨지며, 이로 인해 합성되는 이미지의 attribute (성별, 연령, 헤어스타일 등)을 조절하기가 매우 어렵다는 한계가 있다. 또한 생성되는 이미지 품질이 불안정하여 실제 로는 논문에 리포트된 것과 달리 부자연스러운 이미지도 다수 생성된다.

이 논문은 입력된 데이터의 특징과 그 특징의 전체적인 구성(예: 색상, 스타일 등)이 혼재되어 있는 문제를 해결하기 위해 Style Transfer에 기반한 새로운 generator 구조인 StyleGAN을 제안한다.[13] StyleGAN은 이미지를 style의 조합으로 보고, generator의 각 layer 마다 style 정보를 입히는 방식으로 이미지를 합성한다. 이때 각 layer에서 추가되는 style은 이미지의 coarse feature (성별, 포즈 등) 부터 fine detail (머리색, 피부톤 등) 까지 각기 다른 level의 visual attribute를 조절할 수 있다. 뿐만 아니라 StyleGAN은 기존의 방법들보다 훨씬 안정적이 고 높은 퀄리티의 이미지를 생성하게 된다.

CPTSCQ_2021_v26n1_19_f0006.png 이미지

Fig. 6. StyleGAN(compare with traditional GAN)

기존의 generator (a)는 input latent vector (z)가 직접 convolution, upsampling 등을 거쳐 이미지로 변환되는 구조지만, style-based generator (b)의 경우, (z)}가 fully-connected layer로 구성된 mapping network을 거쳐 intermediate latent vector (w)로 먼저 변환된다. 그리고 (w)는 constant tensor가 이미지로 변환되는 과정에서 스타일을 입히는 역할을 수행함으로써 다양한 스타일의 이미지를 만들어낼 수 있다.

본 연구에서는 실험을 통해 StyleGAN의 가능성을 확인했다. 입력되는 2D 이미지의 학습데이터의 해상도는 본 연구 범위에서 특징 생성을 검증하기에 충분하기 때문에, StyleGAN에서 추출하고자 하는 테두리 및 무늬의 생성뿐만 아니라, 손상된 문화재의 색상과 스타일을 낮은 신경망 레이어에서 학습되어 생성시 참조되고 있는지를 확인하는 범위에서 참고되었다. 이는 CNN을 기반으로 패턴을 생성 할 수 있을 뿐만 아니라[14], 스타일과 컬러를 함께 생성할 수 있다는 것을 보여줬다.

III. The Proposed Scheme

연구에서 손상된 문화재를 복구하기 위해 GAN을 사용하였으며, 온전한 상태의 “와당”을 신경망 학습 데이터로 사용했다. 다만, 연구의 목적인 손상된 문화재의 복구를 할 수 있도록 다음과 같은 시나리오를 구성했다.

고구려 시대의 다양한 손상되지 않은 모양의 “와당”에 대해 오토인코더를 학습시키고, 학습된 가중치를 판별자(Discriminator)와, 생성자(Generator)에게 제공한다. 이후 손상되지 않은 “와당”의 일부분인 1/4을 무작위하게 제거하여, 제거된 부분을 복구하도록 훈련시켰다. “와당”을 선택한 이유는 문화재 중에 훈련이 용이하고 다양한 모습의 학습 및 검증 데이터를 손쉽게 구할 수 있기 때문이다. 최종적으로 연구에서 실제로 손상된 “와당”을 기반으로 1/4에 해당하는 부분을 복구할 수 있는지 연구하는 것이다. 여기서, 일반적인 GAN과 같이 무작위 노이즈를 seed로 사용하지 않고, 손상된 데이터를 seed로 사용하여 손상된 부분을 생성하여 문화재 복구 목적에 맞도록 훈련 시키기 위해서다.

3.1 Neural network configuration

신경망은 GAN을 기반으로 구성하였으나, 일반적 GAN에서 사용하는 무작위 노이즈(Random Noise)를 기반으로 하지 않고, 손상된 이미지를 기반으로 복구하도록 했다.

CPTSCQ_2021_v26n1_19_f0007.png 이미지

Fig. 7. AE & GAN structure for restoration of culture properties

GAN 내부에는 두 개의 신경망이 있으며, 판별자는 128x128x3의 온전한 컬러 이미지로 제작된 “와당”을 학습하기 위한 일반적인 CNN신경망으로 구성했다.

또한, 제한된 학습 데이터를 극복하기 위해 표준적인 스텍 오토인코더(Stacked AutoEncoder)를 사용하여 와당의 특징을 학습하고, 온전한 모습의 학습된 가중치를 GAN의 생성자와 판별자에 적용 하였다.

CPTSCQ_2021_v26n1_19_f0008.png 이미지

Fig. 8. CNN network for future recognition or classification[14]

생성자는 온전한 이미지를 무작위로 1/4을 제거하여 무작위 노이즈 대신 제공된다. 따라서, 생성자 신경망은 주어진 손상된 이미지를 복구하는데 사용되며, 주어진 손상된 이미지를 바탕으로 64x64x3의 영역을 복구하게 된다. 이 부분은 문화재 복구에서 매우 중요한 부분으로 전체 128x128x3의 손상된 이미지가 제공되고, 이중 3/4의 데이터를 기반으로 1/4를 생성하도록 훈련이 된다. 따라서, 발굴된 문화재의 일부분이 가중치에 영향을 주어 복구하고자 하는 부분의 색상과 문양, 위치에 따라 복구함으로써 의도한 복구 결과를 얻을 수 있다.

CPTSCQ_2021_v26n1_19_f0009.png 이미지

Fig. 9. Detail of GAN

3.2 Learning data

온전한 문화재의 문양을 학습하고, 그 특징에 따라 신경망을 학습하고 스스로 분류하여 훈련한다. 데이터는 특징을 대표할 수 있는 “와당” 학습세트를 다음과 같이 100개를 만들었다. 문양 특징의 일관성을 위해 고구려 시대의 “와당”을 기반으로 전기에서 후기간 제작된 데이터를 기반으로 했다.

복구할 데이터는 실제로 출토된 문화재를 기반으로 제작하였으며, 올바른 생성을 위해 128 크기의 이미지로 제작했다. 학습은 Fig 10.의 데이터에서 무작위로 1/4을 제거하여 생성자와 판별자를 함께 훈련한다.

CPTSCQ_2021_v26n1_19_f0010.png 이미지

Fig. 10. Training data Set

Fig 10.은 복구를 목적으로 생성자에 제공될 이미지이다. 학습은 무작위로 1/4을 제거하고 훈련을 하였지만, 학습이 끝나고 제시되는 이미지는 그보다 더 많은 부분이 손상되거나, 부분적으로 손실된 “와당”을 선택했다.

CPTSCQ_2021_v26n1_19_f0011.png 이미지

Fig. 11. Test data set

3.3 Date Set Training

학습을 진행한 환경은 Table 1과 같다.

Table 1. Testing machine environment

CPTSCQ_2021_v26n1_19_t0001.png 이미지

1/4을 무작위로 손상시킨 데이터가 생성자의 신경망에 공급되며, 손상된 크기는 64(128의 1/4)로 지정했다. GAN은 판별자와 생성자를 함께 훈련시켜 loss율을 구하는 방식으로 훈련된다. 신경망의 가중치를 조정하는 활성화 함수는 ReLU와 Tanh를 사용했다.

학습이 진행되는 동안의 성능은 다음과 같으며, 신경망이 훈련되는 동안 약 5.8GB의 메모리를 사용했다.

CPTSCQ_2021_v26n1_19_f0012.png 이미지

Fig. 12. Training performance

3.4 Experiment result

연구에서 신경망의 올바른 구성을 확인하기 위해 “와당”의 1종류(약 20개)에 대한 500,000번의 학습을 진행했다. 학습데이터를 무작위로 1/4 영역을 제거하여 생성자에게 공급했다. 판별자는 0.0001의 loss값과, 생성자는 0.02수준의 loss값을 기록할 때까지 진행했다.

학습결과 무작위로 손실된 “와당”의 사진을 원래의 형태와 매우 비슷하게 복원했다. 하지만, 복원된 결과를 자세히 보면, 작은 점과 선을 무시해버리기도 한다. 또한 복구되어야 하는 이미지의 색상이 변형되기도 했다. 이는 학습데이터의 부족뿐만 아니라 학습 횟수를 좀 더 늘려야 한다는 결론이다[Fig 13].

CPTSCQ_2021_v26n1_19_f0013.png 이미지

Fig. 13. Result of 1 type

연구에서 100개의 샘플로 약 1백만 번의 학습 결과는 판별자 0.0001~0.0005의 loss를 기록하고 있으며, 생성자는 아직까지 0.01~0.02 사이를 기록하고 있다. 학습의 시간을 증가시키면 보다 좋은 결과가 나올 것으로 기대하고 있다.

“와당”은 동그란 모양의 특징과 회전하며 반복적인 특징을 가지고 있는 것이 대부분이다. 연구를 진행하는 동안 이러한 “매우 특징적”인 사물이기 때문에 손쉽게 학습을 진행시킬 수 있을 것으로 판단했었다. 하지만, 문화재를 이미지(2D)로 촬영하는 동안 발생한 그림자로 인해 초기 가정했던 조건과 맞지 않았다. 따라서, 향후 복구하고자 하는 이미지(2D) 데이터를 취득할 때 이러한 문제를 참고해야 한다.

아래는 학습이 진행되는 과정에 따른 판별자와 생성자의 손실율이다. 판별자는 빠른 학습이 이루어지는 반면, 생성자는 학습속도가 빠르지 않다. 이는 일반적인 GAN에서 사용하는 무작위 노이즈를 바탕으로 하지 않고, 주어진 3/4의 이미지를 바탕으로 생성하기 때문인 것으로 예상된다. 따라서, 비록 64x64의 크기에 불과한 네트워크지만, 나머지 네트워크(온전한)의 가중치로 인해 학습의 속도가 느린 것으로 판단된다.

CPTSCQ_2021_v26n1_19_f0014.png 이미지

Fig. 14. Training result(70,000 times)

학습이 진행되고 있는 동안 중간 결과물을 생성해 보았다. 이미지의 아래는 원본(출토시 손상된 문화재 이미지)이며, 그 위의 이미지는 1/4(좌상)을 복구한 이미지다.

CPTSCQ_2021_v26n1_19_f0015.png 이미지

Fig. 15. Restored image(200,000)

이번 연구를 통해 두 가지 결과를 얻을 수 있었다. 첫 번째로는 컨볼루션 네트워크의 외곽층 레이어(얕은 신경망)에서는 충분한 학습이 진행되면 주어진 이미지의 스타일(Style)이 추출이 된다는 것이다. 이는 최근에 연구가 활발이 진행되는 StyleGAN과 관련이 있다.[16] 복구된 결과는 비록 흐릿하긴 하지만, 손상된 이미지를 기반으로 비슷한 색상과 노후 정도를 흉내내어 생성하고 있다. 두 번째로는 원하는 위치에 원하는 크기를 맞춰 올바르게 생성을 시도하고 있다. 위의 결과가 흐릿해 보이지만, 18,000번의 학습에 복구된 부분의 외곽의 모습과 문양의 개략적 모습이 추출되고 있다. 또한 복구하고자 하는 이미지의 색상도 매우 잘 나타나고 있다.

IV. Conclusions

학습할 온전한 문화재가 있는 경우 이번 연구에서와 같이 문양과 패턴을 복구하는데 인공지능을 적용할 수 있는 가능성을 확인했다. 보다 많은 시간 학습을 진행할 경우 위의 결과에서 더욱 명확한 결과가 나올 것으로 기대하고 있다. 특히, 학습의 데이터는 1종으로 제한할 경우 생성자는 원본과 비슷한 모습의 전체 이미지를 생성했다. (1종 x 20,000번 학습)

이번 연구를 통해 문화재 복구에 인공지능을 적용할 때 주의 사항과 방법을 재정리했다.

(1) 복구하고자 하는 대상에 대한 학습 이미지 데이터 취득에 대한 균일성

(2) 완전한 결과물이 아니기 때문에, 학습하고자 하는 이미지의 온전한 복구(1차)

(3) 복구하고자 하는 이미지의 복구

문화재는 단순히 비슷한 상태를 복구하는 것보다 복잡하고 섬세해야 한다. 따라서, 단순히 온전하다고 생각하는 문화재라도 현재의 시점에서 보면 다수의 미세한 손상이 존재한다. 문제는 이러한 2D 데이터를 학습할 경우 아무리 생성자의 훈련을 잘 시켜도 특징을 추출하는 데 문제가 생기거나, 임의의 노이즈 제거로 실제 학습되어야 할 특징이 무시되곤 했다.

앞으로 본 연구를 기반하여 탑의 부분적 특징을 추출하고 학습을 진행하려고 한다. 대부분 외부에 위치해 있는 탑의 경우 계절에 따른 온도와 습도, 태양광으로부터 점진적으로 손상이 일어나며, 주로 문양과 모서리 부분의 손실이 빨리 일어나기 때문에 부분 복구 연구에서 학습할 데이터의 복구가 우선적으로 적용되어야 한다.

나아가 시대적 순으로 충분한 학습데이터가 제공된다면, 시대의 중간에 제작된 문화재의 특징을 예측할 수 있는 ConvLSTM[15]을 연구해보고자 한다. 다변량 데이터의 예측에 좋은 결과를 보여준 신경망이며, 이러한 연구를 통해 문화재의 시대적, 지역적 특성의 예측이 가능할 것으로 보인다. 이 연구에서 사용된 “와당” 역시 시대적 변천사에 따라 데이터 준비가 가능하기 때문에 이에 대해 추가 적으로 적용하여 연구할 필요가 있다.

마지막으로, 연구에 사용한 이미지는 학습 속도와 용이성을 위해 128x128의 이미지를 사용했다. 하지만, 문화재 복구에서는 이러한 저해상도가 아닌 더 높은 해상도를 요구할 것이며, 이러한 고해상도 이미지에 대해 StyleGAN[16]을 접목할 필요가 있다.

ACKNOWLEDGEMENT

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2020R1A2C100766811).

References

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, "Generative Adversarial Nets", Advances in Neural Information Processing Systems 27 (NIPS 2014)
Kang Woo-bang Shin Yong-cheol, Top, (Rediscovery of Korean Beauty 5), Sol, 2003
Encyclopedia of Korean Folk Culture (Wadang)
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", Part of Advances in Neural Information Processing Systems 25 (NIPS 2012)
C Xing, L Ma, X Yang, "Stacked denoise autoencoder based feature extraction and classification for hyperspectral images", Journal of Sensors, 2016
Jyostna Devi Bodapati, N. Veeranjaneyulu, "Feature Extraction and Classification Using Deep Convolutional Neural Networks", Journal of Cyber Security and Mobility, Vol: 8 Issue: 2, Article No: 5, Page: 261-276, April 2019 https://doi.org/10.13052/jcsm2245-1439.825
Zhang, Wei "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics. (1988).
Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, The Journal of Machine Learning Research, 2010
MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
Jiahong Ouyang, Guanhua Wang, Enhao Gong, Kevin Chen, John Pauly and Greg Zaharchuk, Task-GAN for Improved GAN based Image Restoration, ICLR 2019 Conference Blind Submission, 2018
David Berthelot, Thomas Schumm, Luke Metz, BEGAN: Boundary Equilibrium Generative Adversarial Networks, Machine Learning (cs.LG); Machine Learning, 1703.10717, 2017
Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen, Progressive Growing of GANs for Improved Quality, Stability, and Variation, Neural and Evolutionary Computing (cs.NE); Machine Learning, 1710.10196, 2017
Tero Karras, Samuli Laine, Timo Aila, A Style-Based Generator Architecture for Generative Adversarial Networks, Neural and Evolutionary Computing, Machine Learning, 1812.04948, 2018
Yuzhen Lu, Food Image Recognition by Using Convolutional Neural Networks (CNNs), Computer Vision and Pattern Recognition (cs.CV), 1612.00983, 2016
Ruben Villegas, Jimei Yang, Seunghoon Hong, Xunyu Lin, Honglak Lee, "Decomposing Motion and Content for Natural Video Sequence Prediction", Computer Vision and Pattern Recognition, 2018
Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila, Analyzing and improving the image quality of stylegan, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 8110-8119, 2020

Journal of the Korea Society of Computer and Information (한국컴퓨터정보학회논문지)

A research on the possibility of restoring cultural assets of artificial intelligence through the application of artificial neural networks to roof tile(Wadang)

Abstract

Keywords

I. Introduction

II. Preliminaries

2.1 CNN(Convolution Neural Network)

2.2 Auto-encoder

2.3 GAN(generative adversarial network)

2.4 StyleGAN

III. The Proposed Scheme

3.1 Neural network configuration

3.2 Learning data

3.3 Date Set Training

3.4 Experiment result

IV. Conclusions

ACKNOWLEDGEMENT

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)