I. Introduction
광고는 제품, 서비스 또는 브랜드를 대중에게 시각적으로 전달하는 데 있어서 매우 중요한 역할을 한다. 시각적으로 인상적인 이미지는 제품 또는 서비스에 대한 소비자의 관심과 신뢰도를 높일 수 있다[1]. 최근 연구에 따르면 페이스북, 인스타그램 이용자 중 다수가 해당 플랫폼 광고를 통해 구매까지 진행한다[2]. 특히 온라인에서 제품을 시각적으로 평가하고 선택하는 과정에서 홍보물 이미지의 비중은 매우 크다. 따라서 효과적인 홍보물 이미지는 온라인 구매 결정에 직접적인 영향을 미칠 수 있으며, 제품 또는 서비스를 소비자들에게 효과적으로 전달하고 인식시킬 수 있는 필수적인 요소이다. 하지만 광고를 제작하는 과정에서 홍보물 및 디자인 제작은 일부 자영업자들에게 시간 및 금전적인 측면에서 부담을 주고 있다. 2022년 10월 21일 중소기업중앙회에서 발표한 보고서에 따르면 소상공인 500개사 중 72.4%가 온라인 광고비가 부담된다고 응답하였다[3]. 그리고 본 논문에서는 서울특별시 관악구 관내 자영업자 40명을 대상으로 홍보물 제작에 관한 설문조사를 실시하였다. 조사 결과, 홍보물 제작 과정에서 시간과 제작 비용이 부담된다는 응답자가 75%로 높았다. 설문 과정에서 소상공인들에게 홍보물 제작 과정은 매우 어렵고, 번거로운 과정임을 확인할 수 있었다. 또한 응답자 중 68%는 짧은 시간에 저비용으로 홍보물을 쉽게 제작할 수 있는 서비스를 원한다고 응답했다.
따라서 본 논문에서는 생성형 AI 기반의 광고 이미지 자동 제작 서비스를 제공하는 ASAP(AI-driven Service for Advertisement Production) 애플리케이션을 제안한다. 이 애플리케이션은 생성형 AI 기술을 활용하여 홍보 이미지 및 디자인 제작 과정에서 걸리는 시간과 비용을 절감할 수 있는 서비스를 제공한다. 또한, 사용자들이 쉽고 편리하게 광고 홍보물을 제작할 수 있도록 애플리케이션을 설계하고 구현한다.
본 논문의 구성은 다음과 같다. 2장에서는 국내에서 서비스되고 있는 기존 홍보 이미지 디자인 앱 및 서비스들의 특징을 분석한다. 그리고 3장에서는 제안하는 애플리케이션 구조 설계에 대하여 설명하고, 4장에서는 애플리케이션에서 사용한 딥러닝 모델에 대하여 설명한다. 그리고 5장에서는 애플리케이션 구현 방법에 대하여 설명하고, 6장에서 결론을 맺는다.
II. Preliminaries
1. Bench-marking
현재 국내에서 서비스되고 있는 홍보 이미지 디자인 관련 애플리케이션 및 서비스를 조사하고 각 서비스들의 장, 단점을 분석한다. 분석 결과는 표 1과 같다.
Table 1. Bench-marking
표 1에서 ‘VCAT.AI’는 생성형 AI를 활용하여 이미지 홍보물 외에 영상 홍보물을 제작할 수 있다. ‘mustad’는 홍보 이미지를 제작한 후 지하철 광고 등 실제 오프라인 광고로의 연계가 우수하다. 하지만 이러한 서비스들은 공통으로 템플릿을 선택하는 과정과 추가적인 편집이 필요하고, 홍보물 제작에 필요한 입력 과정이 복잡하다. 이는 광고 홍보물 제작 과정을 모르고 디지털 환경에 익숙하지 않은 소상공인들에게는 치명적인 단점이 될 수 있다. 특히, ‘VCAT.AI’의 메인 서비스는 홈페이지의 URL을 기반으로 영상 홍보물을 제작해 주는 것이기 때문에 별도의 홈페이지를 운영하지 않으면 서비스 이용이 어렵다. 이러한 단점들을 해결하기 위해서 대부분의 소상공인이 쉽고 편리하게 사용할 수 있는 홍보 이미지 제작 서비스가 필요하다. 따라서 본 논문에서는 소상공인 제공하는 홍보 대상에 대한 간단한 키워드와 사진으로 홍보 이미지를 쉽고 편리하게 제작할 수 있는 생성형 AI 기반의 광고 홍보물 제작 서비스 ASAP(AI-driven Service for Advertisement Production) 애플리케이션을 설계하고 구축한다.
III. Design of ASAP Application
1. Service Flow
ASAP 애플리케이션은 생성형 AI 기반의 홍보물 제작 서비스를 제공한다. 이 애플리케이션은 사용자가 원하는 홍보 목적에 따라 맞춤형 홍보물 디자인 시안을 제공한다.
그림 1은 ASAP 애플리케이션의 서비스 흐름도이다.
Fig. 1. Service Flow
ASAP 애플리케이션은 사용자로부터 간단한 텍스트와 이미지를 입력받아 GPT-3.5 Turbo Instruct, DALL·E 3, SDXL 등의 기술을 활용하여 짧은 시간 내에 현수막, 전단지, SNS 게시물 형태의 홍보물을 생성할 수 있다.
2. Development Environment
ASAP 애플리케이션의 개발 환경은 그림 2와 같다.
Fig. 2. Development Environment
Front-End의 클라이언트는 Android 앱으로 구현하였으며, Back-End의 서비스 서버는 Django를 활용한다. Back-End에서 서비스 서버는 MongoDB에 있는 데이터를 관리하며, AI 모델들을 자체 구현한 프로세스에 맞게 구동하여 결과물을 생성한다. 홍보물 디자인 시안을 위해 필요한 요소인 텍스트와 이미지를 생성하기 위해 사용된 AI 모델은 GPT-3.5 Turbo Instruct, DALL·E 3, SDXL 등을 활용한다. Front-End에서 Android 앱은 Back-End와 Rest API로 통신하며 입력 데이터를 전달하고 결과 이미지를 반환받는다.
3. Application Workflow
그림 3의 AI Process에서는 홍보물 디자인 시안 제작에 필요한 텍스트와 이미지를 입력받아 홍보물 디자인 시안을 생성하는 과정을 설명한다.
Fig. 3. AI Process
첫째, 사용자가 원하는 홍보 내용을 입력하면 LangCha in을 통해 서버와 연동된 GPT에서 홍보 내용에 적합한 홍보 문구와 배경을 생성한다. 둘째, 생성된 홍보 문구는 DALL·E 3를 활용하여 이미지로 변환시킨다. 이때 Azure OCR을 활용하여 DALL·E 3를 통해 생성된 텍스트 이미지의 정확도를 향상시킨다. 셋째, OpenCV를 활용하여 텍스트 이미지의 배경을 제거한다. 넷째, 사용자로부터 입력받은 홍보 대상 이미지 또한 OpenCV를 활용하여 배경 제거 및 비율 수정과 같은 전처리 과정을 거친다. 이후, SDXL에서는 전처리된 이미지와 배경 분위기를 반영하여 ‘배경 이미지’를 생성한다. 또한 OpenCV를 통하여 각각의 이미지를 적절히 배치하도록 레이아웃을 구성하고 이에 맞춰 ‘텍스트 이미지’와 ‘배경 이미지’를 합성하여 최종 홍보물 디자인 시안을 생성한다. 추가적으로 사용자가 원하는 경우, 전화번호, 영업시간 등 세부 사항을 PILLOW, OpenCV 라이브러리의 텍스트 박스를 이용하여 홍보물의 가장자리에 입력한다.
ASAP 애플리케이션의 동작 과정은 그림 4와 같다. 그림 4 (a) Input에서 사용자는 안드로이드 앱으로 텍스트와 이미지를 입력한다. 그리고 Rest API를 사용해서 입력한 텍스트와 이미지를 서비스 서버로 전송한다. 서비스 서버는 전송된 데이터를 MongoDB에 저장하고, 그림 3의 AI Process를 수행한다. 이러한 과정에서 생성된 홍보물 디자인 시안은 그림 4 (b) Ouput에서 사용자에게 전달된다. 최종 홍보 결과물은 MongoDB에 저장되며, 클라이언트가 GET 요청을 보낼 경우, 서비스 서버는 결과 이미지를 반환한다. 안드로이드 앱은 사용자에게 최종 결과물을 보여 주고, 사용자의 필요에 따라 이미지 파일을 모바일 기기에 저장한다.
Fig. 4. Application Workflow
IV. Deep Learning Model
1. GPT-3.5 Turbo Instruct & LangChain
GPT-3.5 Turbo Instruct는 OpenAI에서 출시된 LLM 모델이다. 이 모델은 방대한 양의 텍스트 및 코드 데이터 셋으로 훈련되어 사용자의 질문에 대답하고 정보를 제공할 수 있다[6]. ASAP 애플리케이션에서는 언어 모델을 기반으로 하는 애플리케이션 개발을 위해 LangChain 프레임워크을 이용하여 파이썬 환경에서 GPT를 활용한다. 애플리케이션에서는 프롬프트 엔지니어링을 통해 GPT에게 디지털 마케터 및 콘텐츠 제작자의 역할을 부여한다. 이를 통해 GPT는 사용자가 입력하는 홍보물에 대한 설명을 바탕으로 최적의 홍보 문구와 생성될 배경의 분위기를 텍스트로 출력한다.
2. SDXL
SDXL 모델은 Stability AI에서 발표한 Text-to-Image를 위한 모델로 총 66억 개의 파라미터를 사용하며 이미지를 생성할 수 있으며 오픈소스로 공개된 모델이다[7]. SDXL 모델의 구조는 그림 5와 같다.
Fig. 5. SDXL Architecture
ASAP 애플리케이션에서는 SDXL을 활용하여 GPT의 출력으로부터 생성된 배경의 분위기를 입력받는다. 그리고 OpenCV로 전처리 된 이미지의 배경을 새롭게 생성한다. DALL·E 3와 달리 이미지를 입력으로 받을 수 있기에 배경 생성에 이 모델을 사용한다.
3. DALL·E 3
DALL·E 3 모델은 OpenAI에서 발표한 Text-to-Image 생성 모델로 이미지 생성 속도가 빠르며, 영어 텍스트 이미지 생성이 가능하다[8-10].
ASAP 애플리케이션에서는 홍보 문구를 글자 그대로 이미지화한 ‘텍스트 이미지’를 생성하기 위해 DALL·E 3 모델을 활용한다. 텍스트를 이미지화하는 것에 적합한 모델을 탐색하기 위해 광학 문자 인식 기술과 코사인 유사도를 사용하여 DALL·E 3, SDXL의 영어 텍스트 생성 정확도를 비교한 결과는 표 2와 같다.
Table 2. Comparison of text generation accuracy
표 2의 결과를 살펴보면 DALL·E 3가 SDXL에 비해 정확도가 높다. 따라서 ASAP 애플리케이션의 영어 텍스트 생성 모델로 DALL·E 3를 사용한다.
4. Azure AI Vision
Microsoft에서 출시한 Azure AI Vision은 클라우드 기반 API로 개발자에게 이미지 처리 및 정보 반환을 위한 고급 알고리즘에 대한 액세스를 제공한다[11-13]. ASAP 애플리케이션에서는 해당 API의 OCR(Optical Character Recognition) 기능을 사용한다. 표 2를 보면 DALL·E 3의 정확도는 0.576으로 높지 않기 때문에 모델의 성능 향상을 위해 추가적인 작업이 필요하다. 따라서 ASAP 애플리케이션에서는 OCR 기능을 추가적으로 활용한다. 이러한 방법의 성능 검증을 위해 생성한 이미지 내의 텍스트가 의도한 텍스트와 얼마나 다른지 코사인 유사도를 이용하여 정확도를 측정한 결과는 표 3과 같다.
Table 3. Comparison of text generation accuracy
표 3을 살펴보면 DALL·E 3와 OCR을 융합한 방법의 정확도가 0.95로 매우 높다는 것을 알 수 있다.
V. Implementation of ASAP Application
1. On-Boarding page
ASAP 애플리케이션의 초기 화면은 그림 6과 같다.
Fig. 6. On-Boarding Page
초기 화면에서는 ASAP 애플리케이션을 쉽게 사용할 수 있도록 서비스의 핵심 기능과 사용 방법을 간략하게 소개한다. 또한, 이 애플리케이션 사용을 위해 필요한 개인 계정 생성 및 로그인은 화면 하단의 ‘로그인’, ‘회원가입’ 버튼을 통해 로그인 및 회원가입 페이지로 이동할 수 있다.
2. Sign In & Sign Up
ASAP 애플리케이션의 로그인 및 회원가입 페이지는 그림 7과 같다. 그림 7 좌측의 회원가입 화면에서 사용자는 아이디, 비밀번호, 이메일 그리고 전화번호를 입력하여 계정을 새롭게 생성할 수 있다. 생성된 사용자 계정으로 그림 7 우측의 로그인 화면에서 로그인한다. 로그인이 완료되면 ASAP 애플리케이션의 주요 기능을 이용할 수 있는 페이지로 이동하게 한다.
Fig. 7. Sign In & Sign Up
3. Image Upload
홍보물을 제작하기 위한 페이지는 그림 8과 같다.
Fig. 8. Image Upload
그림 8에서 사용자는 화면 하단의 카메라 버튼을 이용하여 홍보하고자 하는 대상을 촬영하거나, 갤러리 버튼을 이용해 기존에 사용자가 소유하고 있는 사진을 앱으로 업로드할 수 있다. 사용자로부터 업로드된 사진은 화면 중앙에서 확인할 수 있으며, 상단의 오른쪽 화살표 버튼을 클릭하여 다음 과정을 수행한다.
4. Text Upload
홍보물에 대한 내용 설명을 입력하는 화면은 그림 9와 같다. 그림 9의 (a)에서 사용자는 공통으로 필요한 정보들을 입력할 수 있다. 이후 사용자는 우측 상단의 화살표 버튼을 눌러 그림 9의 (b) 화면으로 이동한 후, 매장명, 사용 목적, 결과물 형태 그리고 테마 등을 입력할 수 있다.
Fig. 9. Text Upload
이때, 사용 목적과 결과물 형태는 그림 10 (a)와 같이 선택 버튼을 클릭하거나 직접 입력하여 작성할 수 있다. 최종적인 폼 작성을 마친 화면은 그림 10의 (b) 화면과 같다.
Fig. 10. Text Upload
필요한 텍스트를 모두 입력한 후, 다음 버튼을 클릭하면 업로드한 된 텍스트와 이미지는 Back-End 서버의 End Point인 ‘asap/item-info’를 거쳐 MongoDB Iteminfo 테이블의 해당 Field에 저장된다.
5. Result
그림 11은 최종 생성된 홍보물 시안이다. 사용자는 생성된 홍보물 시안 중에서 원하는 결과물이 없으면, 하단의 다시 만들기 버튼을 클릭하여 새로운 홍보물을 생성하거나, 원하는 결과물들을 선택하여 갤러리에 저장한다.
Fig. 11. Result Image
VI. Conclusions
본 논문에서는 생성형 AI 기반의 광고 이미지 자동 제작 서비스를 제공하는 ASAP(AI-driven Service for Advertisement Production) 애플리케이션을 설계하고 구현하였다. OpenAI 사의 텍스트 생성 AI 모델인 GPT-3.5 Turbo Instruct를 이용하여 배경 분위기와 홍보 문구를 생성하였다. 이미지 생성 AI 모델로 OpenAI 사의 DALL·E 3 모델과 Stability사의 SDXL 모델을 이용하여 홍보 문구 텍스트 이미지, 새로운 배경의 상품 이미지를 생성하였다. 이때 Microsoft 사의 Azure AI 내 OCR 기술을 이용하여 정확도가 높은 텍스트 이미지를 생성하였다. 이후 출력된 생성물들을 모두 합성하여 최종적인 홍보물을 생성할 수 있도록 구성하였다. 추가적으로 PILLOW, OpenCV 라이브러리의 텍스트 박스를 이용하여 전화번호, 영업시간 등 세부 사항을 홍보물의 가장자리에 삽입할 수 있도록 구현하였다. 본 애플리케이션은 홍보 이미지 제작에 어려움이 많은 소상공인에게 편의성과 제작 비용을 절감할 수 있는 효과를 제공하였다.
ACKNOWLEDGEMENT
This work was supported by the SK Telecom's FLY AI Challenger program, conducted in collaboration with the Ministry of Employment and Labor and the Korean Skills Quality Authority as part of the 2023 K-Digital Training.
References
- H.N. Kim, J.S. Koh, and H.K. Kim, "A Study on Visuospatial Psychological Perception of Colors Shown in Advertisement Images," Journal of The Korean Society Design Culture, Vol. 16, No. 4, pp. 167-176, Dec. 2010.
- H.S. Koh, H.B. Kim, "A study on the characteristics of social media advertising and purchasing experience and factors influencing the purchasing experience: Focusing on Facebook and Instagram," Journal of Practical Research in Advertising and Public Relations, Vol. 15, No. 4, pp. 7-28. Nov. 2022, https://doi.org/10.21331/jprapr.2022.15.4.001
- https://www.kbiz.or.kr/ko/contents/bbs/view.do?seq=153150&mnSeq=207&schFld=whle&schTxt=%EA%B4%91%EA%B3%A0%EB%B9%84
- https://vcat.ai/
- https://www.must-ad.com/
- Neelakantan, Arvind, et al, "Text and Code Embeddings by Contrastive Pre-Training," arXiv preprint arXiv:2201.10005. Jan, 2022, https://doi.org/10.48550/arXiv.2201.10005
- Podell, Dustin, et al, "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis," arXiv preprint arXiv:2307.01952. July, 2023, https://doi.org/10.48550/arXiv.2307.01952
- https://openai.com/research/dall-e-3-system-card
- https://apps.apple.com/us/app/dalle-3-create-art-with-ai/id6444565833
- https://zapier.com/blog/dall-e-3/
- https://learn.microsoft.com/ko-kr/azure/ai-services/computer-vision/overview
- https://azure.microsoft.com/ko-kr/products/ai-services/ai-vision
- https://portal.vision.cognitive.azure.com/gallery/featured