I. Introduction
최근 인공지능과 딥러닝 기술은 현대 컴퓨터 비전과 3D 관련 분야에서 혁신적인 발전을 이루고 있다. 이러한 기술의 발전은 많은 응용 분야에서 혁신적인 결과를 가져왔으며, 특히 3D 재구성과 같은 고도로 복잡한 작업에 큰 영향을 미치고 있다[1]. 콜맵(Colmap)은 최근에 등장한 인공지능과 딥러닝을 기반으로 한 3D 재구성 기술 중 하나로, 특성과 뛰어난 성능으로 주목을 받고 있다. 콜맵(Colmap)은 컴퓨터 비전 분야에서 널리 사용되는 Structure-from – Motion(Sfm) 및 Multi-View Stereo (MVS) 기술을 적용하요 높은 수준의 3D 재구성 결과물을 생성한다[2,3,4]. 최근 3D 비전 및 컴퓨터 비전 분야에서 인공지능과 딥러닝 기술의 발전은 놀라운 속도로 연구가 진행되고 있다. 이러한 기술의 발전은 고해상도 이미지, 비디오, 센서 데이터 등과 같은 다양한 입력 소스로부터 3D 재구성을 가능하게 했으며, 이는 다양한 응용 분야에서 혁신적인 결과를 이끌어내고 있다. 이러한 결과로 OpenAI의 DALL-E2 및 Point-E 등과 같은 최신 모델이 연구되고 있다[5,6,7]. 그림 1은 Point-E를 이용한 3D 복셀화를 진행한 결과이다.
Fig. 1. OpenAI Point-E
논문의 구성은 2절에서는 관련 연구를 3절에서는 데이터셋을 생성하는 과정과 방법에 대하여 4절에서는 실험 및 분석을 5절에서는 결론을 맺는다. 본 논문은 인공지능과 딥러닝 기술을 기반으로 콜맵(Colmap)을 응용하여 문화재 복원 기술에 대해 분석한다.
II. Preliminaries
2.1 AI 3D modeling related research
최근 인공지능 딥러닝을 활용한 3D 모델링 기술은 계속해서 발전하고 있으며, 다양한 연구가 진행되고 있다. 주요 연구 기술로는 Table 1의 연구를 분류했다[8,9].
Table 1. Trends and Prospects in 3D Modeling Research Based on Deep Learning
표1의 연구로 3D 모델링 분야에서 인공지능 딥러닝의 기술 발전을 촉진하고 있으며, 정확도, 효율성, 일반화 능력 등을 개선하여 다양한 응용 분야에서의 활용 가능성을 확장시키고 있다.
2.2 Currently used deep learning algorithm
최근 들어 OpenAi에서 만든 딥러닝 기술을 활용한 Point-E와 Dall-E2 사용량이 증가하고 있다. 공통점으로는 딥러닝과 인공지능을 활용한 이미지 생성에 관련된 기술이라는 점이다. 두 기술은 이미지 생성 모델로서 창의적이고 다양한 형태의 이미지를 생성할 수 있다. 대규모 데이터셋을 기반으로 학습된다[10].
그림2는 DALL-E2의 생성 모델이다. 이미지를 생성하기 위해 DALL-E2는 텍스트 프롬프트를 입력으로 받고, 훈련된 학습을 통해 설명과 일치하는 이미지를 생성한다. 이미지는 일반적인 물체와 동물부터 현실에서는 존재하지 않는 추상적인 개념까지 다양한 범위의 이미지를 생성할 수 있다. 이를 위해 대용량의 데이터-셋을 필요로 하고 기본적인 패턴과 구조를 학습한다[11,12,13].
Fig. 2. The generative model of DALL-E2.
그림3은 3D-GAN으로 생성된 모델이다. 3D-GAN은 GAN구조를 기반으로 하여 생성자와 판별자라는 두 개의 신경망을 사용한다. 생성자는 잠재 공간에서 무작위로 샘플링한 잠재 벡터를 입력으로 받아 실제 같은 3D 모델을 생성하고, 판별자는 생성된 모델과 실제 모델을 구분하는 역할을 한다[14,15,16].
Fig. 3. The generative model of 3D GAN
III. The Proposed Scheme
딥러닝 기반 콜맵은 딥러닝 기술을 활용하여 데이터 시각화를 위한 방법의 하나다. 이를 통해 데이터의 특징과 패턴을 반영한 매핑을 생성할 수 있다[11]. 콜맵(Colmap)은 문화재의 시각적 분석과 보존에도 활용될 수 있다. 딥러닝을 기반으로 한 콜맵(Colmap)은 문화재의 형태, 재질, 구조를 시각화해 문화재 복원에 대해 유용한 정보를 제공하고, 이를 통해 문화재 특징을 쉽게 파악해 복원을 할 수 있다[17,18,19].
3.1 The process of preparing the dataset.
본 절에서는 콜맵(Colmap)을 활용하여 문화재 복원을 하기 위해 배경이 없는 데이터 셋(DataSet)을 준비했다.
그림4는 콜맵으로 데이터를 시각화하기 전에 전처리 과정으로 정확성 높은 인식을 위해 배경을 제거했다. 데이터는 360°를 각 부분마다 촬영하고, 일반적으로 2D 배열 또는 이미지 형태로 포현한다. 각 데이터 포인트에는 값을 나타내는 숫자가 할당되어 있어야 한다. 또한 데이터 값을 정규화하여 일정 범위로 스케일링한다. 이는 콜맵(Colmap)을 적용할 때의 색상의 대비와 구분력을 향상시키기 위해 중요하다. 데이터를 0과 1사이의 값으로 정규화하는 경유가 일반적이다.그림 5는 콜맵의 내부 파라메터로 3차원 공간으로 맵핑하기위한 주요 연산하는 과정이다. 또한 그림 6은 2D공간에서 3차원 공간으로 이동하기 위한 스케링 함수 이다. 픽셀단위 연산으로 3차원공간 좌표로 변환된다.
Fig. 4. Prepared preprocessing data set
Fig. 5. ColMap Internal Parameters
Fig. 6. Pixel Scaling
3.2 Environment for using Colmap
본 절에서는 3.1절에서 준비된 데이터셋을 기반으로 3D 모델을 제작하기 위해 콜맵(Colmap) Cuda 버전을 사용한다. 학습을 통해 제작된 .ply파일은 콜맵(Colmap)으로 확인한 후 3D 모델 확장자로 추출하여 최종적으로 Blender로 색상 매핑, 모델링하는 과정을 진행한다. Table 2은 콜맵(Colmap)을 본 연구에서 사용된 환경설정이다.
Table 2. Compilation Setting for Colmap
IV. Experiment and analysis
최근 학문적 연구를 활성화로 역사를 소개하는 데 있어 문화재 복원 기술은 매우 중요한 역할을 하고 있다. 그림7는 고해상도 3D 스캔 기술로 첨단 라이다(LiDAR) 기술을 사용하여 3D 스캔을 통해 문화재를 정밀하게 복원이 가능하게 만든다. 그림8는 증강 현실(VR) 및 가상 현실(VR) 기술로 실제로 복원이 불가능한 문화재를 가상 현실에 3D 모델링을 통해 역사적인 문화재를 탐구하고 경험하는 새로운 방법을 제공한다. 이처럼 많은 방법에 3D를 활용한 문화재 복원 기술이다. 본 절에서는 AI 및 머신러닝을 활용한 기술 콜맵(Colmap)으로 문화재를 복원하는 방법에 관해 연구를 진행했다. 3.1절에서 준비한 데이터 셋에서 추출한 이미지를 분석하여 3D 모델을 생성하고 시각적 분석을 제공하며, 3D 모델의 구조를 분석하고 이미지 패턴을 시각화하여 특징을 파악한다. 그림9는 콜맵을 사용해 우리나라 전통 문화재인 석탑에 대하여 재구성하고 복원한 결과물이다.
Fig. 7. High-resolution 3D scanning
Fig. 8. Viewing 3D through AR and VR
Fig. 9. 3D file created using Colmap.
Table3은 다양한 각도해서 제작된 탑의 형태이다. 총 64장의 촬영된 이미지의 좌표 값을 찾아 3D로 형상화 하였으며, 표2는 그림9의 물체를 기준으로 다양한 각도에서 바라본 화면이다. 본 실험에서는 한국의 문화재인 탑을 기준으로 3D 재구성을 진행하였는데 실험을 한 결과 Y축 기준 360 촬영할 경우 동일한 패턴을 가진 물체 같은 경우에는 콜맵(Colmap)에서 같은 포인트 클라우드로 인식하여 절반의 형태로만 형상화 되고 있는 것을 볼 수 있다. 표3는 다양한 한국의 문화재인 탑을 가지고 실험을 한 결과이다. 위 표3의 탑을 선택한 기준으로는 탑의 외형적인 형태에 따른 3D 형상화를 책정하였다. 실험 결과로는 탑의 외형적인 복잡도에 따른 점(Vertex)의 수에서 차이나 나고 있는 것을 알 수 있다. 또한, 다른 실험을 진행해보았다. 모델에 따른 포인트 수와 더불어 각 훈련된 모델에 따른 데이터 수를 비교해보았고 표4의 결과를 가지게 되었다. 이후 3D 프로그램을 통해 점, 면, 선 편집을 통해 개선된 3D 모델이 생성될 것이다.
Table 3. Pagoda from various angles
Table 4는 석탑에 대한 복셀화를 통해서 제작된 탑의 형태로, 322,747 점의 수가 만들어지면 형태를 유지함을 확인했다.
Table 4. Results of various pagoda experiments
Table 5는 우리나라의 다양형태의 탑을 복셀화를 통해서 제작된 이미지 형태이다. 64개 이상의 이미지가 존제할 경우 복원이 잘됨을 확인했다.
Table 5. Point results depending on the number of data
V. Conclusions
인공지능 및 딥러닝 기술은 현재까지도 발전되고 있다. 많은 분야에서 사용되고 있으며, 사용자의 만족도를 보아 높다고 평가를 받고 있다. 이러한 기술의 발전으로 과거에는 시도조차 어려웠던 일들이 가능해지고 있다. 문화재 복원을 통해 사람들의 역사를 소개하고 탐구하며 3D 재구성 즉, 콜맵(Colmap)을 통한 문화재 복원은 매우 중요한 역할을 한다고 볼 수 있다. 본 연구에서는 총 4가지의 한국문화재를 가지고 재구성 및 복원을 진행했다. 우선, 전체적인 데이터를 수집한 후, 외형적인 특징을 기준으로 크게 4개의 탑으로 분류하였으며, 물체당 총 48~64개의 이미지를 촬영을 하여 Colmap(콜맵) 학습을 통해 좌표값을 찾는 실험을 진행하였고, 한 가지 결론을 낼 수 있었다. 정확한 좌표값을 찾는데에 있어서는 이미지의 개수가 아닌 물체가 가지고 있는 복합성과 특징에 따른 점(Vertext) 차이가 존재하며 점이 상대적으로 많은 물체면 보다 뚜렷한 결과가 나올 수 있다는 것을 알 수 있었고, 이러한 특징을 개선하여 인공지능 딥러닝 기술인 콜맵(Colmap)을 활용하여 더욱 더 높은 수준의 3D모델링을 구성하고 문화재 복원에 크게 이바지할 수 있을 것으로 사료된다. 향후 연구 과제로 인공지능 기술을 적용한 향후 변형될 수 있는 모양을 예측해서 예방하는 기술적인 보완 기능이 필요할 것으로 사료된다.
ACKNOWLEDGEMENT
This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT).(No.2020R1A2C1007668)
References
- Ma, Zhiliang, and Shilong Liu. "A review of 3D reconstruction techniques in civil engineering and their applications." Advanced Engineering Informatics 37 (2018): 163-174. https://doi.org/10.1016/j.aei.2018.05.005
- Vergauwen, Maarten, and Luc Van Gool. "Web-based 3D reconstruction service." Machine vision and applications 17.6 (2006): 411-426. https://doi.org/10.1007/s00138-006-0027-1
- Fatahilah, Muhammad Fahlesa, et al. "3D GaN nanoarchitecture for field-effect transistors." Micro and Nano Engineering 3 (2019): 59-81. https://doi.org/10.1016/j.mne.2019.04.001
- Sun, Li, et al. "Hierarchical amortized training for memory-efficient high resolution 3D GAN." arXiv preprint arXiv:2008.01910 (2020).
- Li, Ruihui, et al. "SP-GAN: Sphere-guided 3D shape generation and manipulation." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-12. https://doi.org/10.1145/3476576.3476732
- W. Guo, Y. Li, W. Li and M. Sun, "Image-Based Modeling of Virtual Pagoda of China," 2008 International Conference on Multimedia and Ubiquitous Engineering (mue 2008), Busan, Korea (South), 2008, pp. 9-14, doi: 10.1109/MUE.2008.39.
- Y. Ganeeva and V. Myasnikov, "The impact of intermediate video frames reconstruction step on the result of 3D reconstruction of objects," 2022 VIII International Conference on Information Technology and Nanotechnology (ITNT), Samara, Russian Federation, 2022, pp. 1-5, doi: 10.1109/ITNT55410.2022.9848697.
- S. Skuratovskyi, I. Gorovyi, V. Vovk and D. Sharapov, "Outdoor Mapping Framework: from Images to 3D Model," 2019 Signal Processing Symposium (SPSympo), Krakow, Poland, 2019, pp. 296-399, doi: 10.1109/SPS.2019.8882019
- K. Gao et al., "Local Feature Performance Evaluation for Structure-From-Motion and Multi-View Stereo Using Simulated City-Scale Aerial Imagery," in IEEE Sensors Journal, vol. 21, no. 10, pp. 11615-11627, 15 May15, 2021, doi: 10.1109/JSEN.2020.3042810.
- J. Ko, K. Cho, D. Choi, K. Ryoo and S. Kim, "3D GAN Inversion with Pose Optimization," 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, 2023, pp. 2966-2975, doi: 10.1109/WACV56688.2023.00298.
- A. Adan, T. Prado, S. A. Prieto and B. Quintana, "Fusion of thermal imagery and LiDAR data for generating TBIM models," 2017 IEEE SENSORS, Glasgow, UK, 2017, pp. 1-3, doi: 10.1109/ICSENS.2017.8234261.
- Y. -L. Tseng and S. -L. Chung, "Profile conversion of a picture into a 3D model reminiscent of low relief for 3D-printing," Proceedings of the 33rd Chinese Control Conference, Nanjing, China, 2014, pp. 2953-2957, doi: 10.1109/ChiCC.2014.6897110.
- Meng Yao-wei and Wang Shan-dong, "A new interactive approach of 3D modeling reconstruction from contours," 2010 International Conference on Computer Application and System Modeling (ICCASM 2010), Taiyuan, China, 2010, pp. V6-496-V6-499, doi: 10.1109/ICCASM.2010.5620388.
- X. Chen, Q. Wu and S. Wang, "Research on 3D Reconstruction Based on Multiple Views," 2018 13th International Conference on Computer Science & Education (ICCSE), Colombo, Sri Lanka, 2018, pp. 1-5, doi: 10.1109/ICCSE.2018.8468705.
- R. Pages and F. Moran, "3D facial merging for virtual human reconstruction," 2012 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video (3DTV-CON), Zurich, Switzerland, 2012, pp. 1-4, doi: 10.1109/3DTV.2012.6365448.
- D. Christie, Cansen Jiang, D. Paudel and C. Demonceaux, "3D reconstruction of dynamic vehicles using sparse 3D-laser-scanner and 2D image fusion," 2016 International Conference on Informatics and Computing (ICIC), Mataram, Indonesia, 2016, pp. 61-65, doi: 10.1109/IAC.2016.7905690.
- J. Schoneberg, G. Raghupathi, E. Betzig and D. Drubin, "3D Deep Convolutional Neural Networks in Lattice Light-Sheet Data Puncta Segmentation," 2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), San Diego, CA, USA, 2019, pp. 2369-2372, doi: 10.1109/BIBM47256.2019.8983012.
- D. -C. Hoang, A. J. Lilienthal and T. Stoyanov, "Panoptic 3D Mapping and Object Pose Estimation Using Adaptively Weighted Semantic Information," in IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 1962-1969, April 2020, doi: 10.1109/LRA.2020.2970682.
- S. Skuratovskyi, I. Gorovyi, V. Vovk and D. Sharapov, "Outdoor Mapping Framework: from Images to 3D Model," 2019 Signal Processing Symposium (SPSympo), Krakow, Poland, 2019, pp. 296-399, doi: 10.1109/SPS.2019.8882019.