DOI QR코드

DOI QR Code

Analysis Modeling of Variable Goods Value to extract Key Influencers based on Time series Big Data

시계열 Big Data에 기반한 핵심영향인자 추출을 위한 변동재화 가치 분석 Modeling

  • 김권웅 (한국공학대학교 컴퓨터공학과) ;
  • 김영곤 (한국공학대학교 컴퓨터공학과)
  • Received : 2023.05.16
  • Accepted : 2023.06.09
  • Published : 2023.06.30

Abstract

Research to analyze the future prediction of value is being conducted in various. However, it was found through the research results of each field that such future value analysis has too many variables according to each field, so the accuracy of the prediction result is low, and it is difficult to find objective key influencing factors that affect the result. In particular, since objective standards for the importance of various influencing factors have not been established, the key influencing factors have been judged and applied based on the researcher's subjectivity. Accordingly, there is a need for a reasonable process model for extracting key influencing factors that affect the prediction of volatility goods value that can be objectively applied in various fields. In this study, process modeling for extracting key influencing factors was conducted in seven steps, and the method for extracting key influencing factors was explained in detail in each step. In addition, as a result of simulation by applying Ni metal among the major variable goods in the field of raw materials using the proposed modeling, the predicted value by the existing method was 0.872% and the predicted value by applying the modeling of this study was 0.864%. conformance was confirmed.

변동성 가치에 대한 미래 예측을 분석하는 연구는 여러 분야에서 이루어지고 있다. 하지만 이러한 미래 가치분석은 각 분야의 연구결과를 통해 각 분야에 따른 변수가 너무 많아 예측결과의 정확도가 낮으며 결과에 영향을 미치는 객관적인 핵심영향요소를 찾아내는 데 어려움이 있음을 알 수 있었다. 특히 다양한 영향인자의 중요도에 대한 객관적인 기준이 마련되지 않아 연구자의 주관에 의지하여 핵심영향인자를 판단하여 적용하는 실정이다. 이에 여러 분야에서 객관적으로 적용할 수 있는 변동성 재화가치 예측에 영향을 미치는 핵심영향인자 추출을 위한 합리적인 Process 모델이 필요하게 되었다. 본 연구에서 총 7단계로 핵심영향인자 추출을 위한 Process 모델링을 제시 하였으며, 각 단계별로 핵심영향인자 추출을 위한 방법을 구체적으로 정의하였다. 또한, 제안된 모델링을 이용하여 원자재 분야의 주요 변동재화 중 Ni금속을 적용하여 Simulation을 한 결과 기존 방식에 의한 예측 값 0.872%, 본 연구 모델링을 적용한 예측 값 0.864%로 예측 결과 값이 모델에서 제시한 기준에 부합함을 확인 하였다.

Keywords

Ⅰ. 서론

제조업 분야의 원자재는 부품산업의 핵심소재로써 전기자동차, 반도체, 모바일, 정보통신등 우리나라 주요산업에 널리 사용되고 있다. 하지만, 제조업에 사용되는 원자재의 대부분이 국내수급이 되지 않아 수입에 의존하고 있는 상태이다. 따라서 원자재의 가치변화에 따라 제조 기업들의 생존을 위협받는 현실에 직면하고 있는 실정이다. 최근 우크라이나 전쟁과 같은 군사적 충돌과 미. 중간 경제적 분쟁으로 인해 그 변동성이 더욱 예측하기 어렵게 전개되고 있어 산업계의 어려움이 가중되고 있는 상태이다. 이러한 변동가치에 대한 예측은 이전에도 매우 중요한 사안으로 여러 분야에서 예측 결과 값을 높이기 위한 연구가 진행되어 왔으나 결과 값에 중요한 영향을 미치는 유효인자 선택의 선정기준이 미약하여 각 연구별로 다른 유효인자를 선택하는 경우가 많았다. 또한, 다양한 유효인자 중 핵심인자를 선정하는 객관적인 절차가 생략되어 여러 분야에 적용하기에는 어려움이 있었으며, 이러한 변동 재화의 가치 분석은 빠른 시간 내에 이루어 져야만 실효성이 있으나 기존 연구들은 상당한 시간을 들여 분석해야만 하는 한계점을 가지고 있었다. 이에 변동가치에 영향을 미치는 핵심영향인자 추출을 위한 효율적이고, 합리적인 Process 모델의 필요성을 가지게 되었다. 본 연구에서 시계열 빅 데이터에 기반 하여 총 7단계로 변동성 재화의 결과 예측 핵심영향인자 추출을 위한 Process 모델링을 진행하였으며, 이에 대한 구체적이고 객관적인 기준을 제시하였다. 제안된 모델링을 이용하여 변동성 재화의 가치예측 분석에 효율적으로 활용되기를 바란다.

Ⅱ. 이론적 배경

1. 상관분석

상관분석(Correlation Analysis)은 확률과 통계학에서 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 서로 연관성이 있는 관계를 가지게 되며 이때 두 변수 간 관계를 강도를 상관관계라고 한다. 상관분석에서 상관관계의 정도를 모상관 계수 p를 사용하여 나타내며 표본 상관계수로 r을 사용한다. 두 변수간의 관계를 파악하기 위해서는 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다[1].

2. ARIMA 모형

ARIMA(Auto-regressive Integrated Moving Average) 모델은 과거의 관측값과 오차, 차분절차를 이용하여 현재의 시계열 값을 설명하는 모델로 AR모델, MA모델을 동시에 포함한다[2].

1. 자동회귀(AR): 미래 값을 예측하기 위해 시계열의 과거 관측값을 사용하는 것을 말한다. AR모델에서 변수의 현재 값은 자체 과거 값을 기반으로 예측된다.

2. 차분(I): 시계열에서 추세나 계절성을 제거하여 고정 상태로 만드는 과정이다. 정상성은 ARIMA모형의 가장 중요한 가정이다.

3. 이동 평균(MA): 과거 예측 오류를 사용하여 미래값을 예측하는 것을 말한다. MA모델에서 변수의 현재 값은 모델의 과거 예측 오류를 기반으로 예측된다.[3]

3. 다중 회귀분석

독립 변수가 2개 이상인 경우를 분석 대상으로 하는 회귀분석 방법 중 하나로써, 회귀분석에는 원인이 되는 독립변수와 결과가 되는 종속변수가 존재하는데, 이때 종속변수는 하나이고 독립변수가2개 이상인 회귀모델에 대한 분석을 수행하는 방법이다.[4]

다중 회귀 식은 다음과 같다.

Y=β0+β1X1+β2X2+ ⋯ +βkXk

(X: 독립변수, Y: 종속변수, β: 회귀계수, β0: Y절편, β1~βk: 독립변수의 기울기)

Ⅲ. 관련 연구

“SHAP을 활용한 산업재해 예측 모델링 및 분석“은 변동성 가치에 대한 모델링의 연구로써, SHAP를 활용한 산업재해 예측모델링의 경우, XAI 기법중 하나인 SHAP를 활용하여 예측 모델의 각 변수 기여도를 계산하여 이해할 수 있는 모델을 제시하였다. 특히 K-중첩 교차검증(K-fold Cross Validation)을 통해 앙상블 모델들의 초매개변수를 조정하여 최적화를 진행한 것이 특징이고 Data Analysis Process는 그림1과 같다[5].

OTNBBE_2023_v23n3_185_f0001.png 이미지

그림 1. 데이터 분석 공정

Fig. 1. Data Analysis Process

“미세먼지 확산 모델링을 이용한 대기 질 예측 시스템 연구” 에서는 대기오염원인 미세먼지를 실시간으로 분석하여 사전예방 및 대응을 위해 미세먼지 확산모델 알고리즘을 개발하고자 하였다. IoT, 빅데이터 등 지능정보화 기술을 통해 수집된 정보를 이용하여 미세먼지의 확산형태 및 확산정도에 대한 과학적인 정보를 제공하는 시스템 모델을 제시하였다[6].

“연속적인 시계열 예측을 위한 디노이징 다변량 시계열모델링”연구는 여러개의 변수를 가진 다변량의 시계열 변동가치 분석을 위한 연구로써 연속적인 시계열 예측을 위한 디노이징 다변량 시계열 모델링 연구에서는 앞선 연구들이 가진 한계점을 개선하기 위해 새로운 방법론인 DTSNet(Denoising TimeSeries Model using Deep Neural Network)을 제안 하였고 그림2와 같다[7].

OTNBBE_2023_v23n3_185_f0002.png 이미지

그림 2. 제안 방법의 개요, DTSNet

Fig. 2. Overview of the proposed method, DTSNet

미래가치에 영향을 미치는 영향인자에 대한 연구로써 “사고분석을 통한 팀 의사결정 영향요소의 역할 조사 연구”에서는 기존 연구의 분석결과 및 선행연구에서의 경험을 종합해서 의사결정 영향요소를 의미 있게 파악하고 조직화 할 수 있는 모형을 개발하였으며, 여러 개의 영향 요소 중 가장 크게 영향을 미치는 핵심요소를 찾아내기 위한 분석을 통해 각 영향요소가 기존 결과 값에 어떻게 영향을 미쳤는지 파악할 수 있도록 모델을 제시하였다[8].

“동적 악성코드 분석 시스템 효율성 향상을 위한 사전 필터링 요소 연구”에서는 효율적인 동적 악성코드 분석 시스템의 사전 필터링 기술 선정 시 다양한 고려사항에 직면하게 되는데, 어떠한 방법으로 가장 중요한 영향인자를 추출해 낼 수 있는지에 대한 방법을 제시하였고 그림3과 같다[9].

OTNBBE_2023_v23n3_185_f0003.png 이미지

그림 3. 사전 필터링 시스템을 위한 AHP 모델

Fig. 3. AHP Model for pre-filtering system

Ⅳ. 본론

본 연구에서 제시하고자 하는 변동재화 가치 예측에 영향을 미치는 핵심영향인자 추출 모델링은 다음과 같이 7단계로 구성된다.

1단계 : 영향인자 추출, 2단계 : 핵심영향 인자 선정, 3단계 : 최우선 핵심영향 인자 선정, 4단계 : 실제 값에 영향을 주는 보상인자(상관정책인자) 추출분석, 5단계 : 보상 Element 값에 Weight 추가(최우선 핵심영향인자 그룹선정), 6단계 : 선정된 최우선 핵심영향인자 그룹을 이용한 결과 값 검증(Simulation), 7단계 : 상관정책인자 Group 주기적 재검증 및 지정

그림4에 제시된 각 단계별 과정은 다음과 같다.

OTNBBE_2023_v23n3_185_f0004.png 이미지

그림 4. 핵심영향인자 추출 7단계도표

Fig. 4. 7-Step Chart for Extracting KIF

1. 영향인자 추출

변동성 재화의 가치 변화에 영향을 줄 수 있는 영향인자의 추출을 위해 전문가 그룹의 설문조사를 실시하여 영향인자를 선정한다. 영향인자의 최대 선정 개수를 N<개 (선정개수N은 최대 100개)로 설정하여 선택된 항목들을 정리한다. 영향인자의 객관성 확보를 위해 전문가의 기준을 설정한다. 전문가는 10년 이상 적용분야 근무를 기준으로 한다.

2. 핵심영향인자 선정

1단계에서 선택된 영향인자들 중 핵심영향인자를 선정하기 위해 시계열 Big data 회귀분석을 진행한다. 핵심영향인자에 대한 선정은 상관분석을 통해 진행 하며 선정된 핵심영향인자의 개수는 최대한 적용 변수에 의한 혼동을 막기 위해 유효인자 N개중 N-1 개에서 N/2 개까지로 정의 한다. 피어슨 상관계수(Pearson correlation coefficient)는 두 개의 연속형 자료 집합 간의 선형 상관관계를 측정하는 값으로 상관분석에서 보편적으로 이용되며, 피어슨 상관계수는 다음과 같은 식(1)으로 계산한다.

\(\begin{aligned}\sum(\mathrm{x}-\overline{\mathrm{x}})(\mathrm{y}-\overline{\mathrm{y}})\end{aligned}\)(x와 y가 같이 변하는 정도)

r = -----------------------------(1)

\(\begin{aligned}\sqrt{}\left(\Sigma(\mathrm{x}-\overline{\mathrm{x}})^{\wedge} 2\right)\left(\sum(\mathrm{y}-\overline{\mathrm{y}})^{\wedge} 2\right)\end{aligned}\)(x와 y가 각각 변하는 정도)

결과의 해석은 다음과 같다.

r 값은 -1과 1 사이의 실수로 표현되며, 이 값이 -1로 가까워질수록 음의 상관관계가 있다는 것을 의미하고, 1로 가까워질수록 양의 상관관계가 있다는 것을 의미한다. 0에 가까워질수록 상관관계가 없다는 것을 말한다. r값은 x와 y가 완전히 동일하면 +1, 전혀 다르면 0, 반대 방향으로 완전히 동일하면 –1을 가진다. 결정계수(Coefficient of Determination)는 r²로 계산하며 이것은 x로부터 y를 예측할 수 있는 정도를 의미한다.

일반적으로,

r이 -1.0과 -0.7 이면, 강한 음의 상관관계,

r이 -0.7과 -0.3 이면, 뚜렷한 음의 상관관계,

r이 -0.3과 -0.1 이면, 약한 음의 상관관계,

r이 -0.1과 +0.1 이면, 거의 무시될 수 있는 상관관계,

r이 +0.1과 +0.3 사이이면, 약한 양의 상관관계,

r이 +0.3과 +0.7 사이이면, 뚜렷한 양의 상관관계,

r이 +0.7과 +1.0 사이이면, 강한 양의 상관관계

로 해석된다[1].

따라서 통계 기반 요인 선정 방법 중 하나로 연속적 선형 관계를 확인할 수 있는 Pearson 상관분석을 진행하여 피어슨 상관계수 값이 0.7 이상인 강한 상관관계를 가지는 영향인자를 핵심영향인자로 추출한다. 단, 시계열 데이터가 정상성을 나타내지 않거나 변동 폭이 일정하지 않은 경우 로그변환, 추세가 존재 할 경우 차분 방법을 적용해 분석한다.

3. 최우선 핵심영향 인자 선정

선정된 핵심영향인자를 이용하여 변동재화가치를 예측하고 이에 대한 결과 값과의 비교분석을 진행한다. 각 영향인자별로 예측 값의 정확성을 분석하고 인과관계를 확인한다. 정확성 분석의 기준은 표본 20개 or 회 이상으로 설정하고 정해진 기준시점으로부터 과거 월별 or 일별 data를 토대로 분석한다. 선정된 핵심영향인자 중 최우선 핵심영향인자를 선정한다.

4. 실제 값에 영향을 주는 보상인자 추출 분석

2단계에서 추출된 핵심영향인자와 3단계에서 선정한 최우선 핵심영향인자를 이용하여 보상인자를 추출한다. 보상인자 추출은 다중회귀분석을 활용하여 진행하고 최우선 핵심영향인자와 각각의 핵심영향인자를 Matching하여 결과 값을 통해 추출한다.

다중회귀 분석은 다음과 같은 식(2)에 의해 적용한다.

Yt = A0 + A1X1i + A2X2i + A3X3i + ...... + ApXpi + Et (i= 1,2,3,....p t = 1,2,3,.......n)       (2)

Yt = 종속변수 Y의 t번째 결과 값

Xit = i번째독립 변수의 t 번째 결과 값

A0 : 선형회귀 함수의 절편

Ai : i번째 독립변수의 회귀계수

Et : t번째 오차 항

p : 독립변수의 수

n : 표본의 수

보상인자는 상관정책인자로 정의하며, 예측 결과 값에 가장 큰 영향을 미치는 인자를 선정하며 최대 5개 까지 선정한다.

5. 최우선 핵심영향인자 그룹선정

4단계에서 선택된 보상인자를 적용하여 변동재화가치를 예측하고 결과 값을 비교하여 보상인자가 포함된 핵심영향인자 그룹 중 예측결과 값이 가장 정확한 그룹을 최우선 핵심영향인자 그룹으로 선정한다. 예측결과검증은 다음과 같은 식(3)에 의해 진행한다.

검증값(%) = 실제값 – 예측값 / 실제값 * 100 (3)

예측 결과 값의 평균을 계산하여 결과 우수성을 검증한다. 검증 값이 낮을수록 정확함을 나타낸다.

6. 선정된 최우선 핵심영향인자 그룹을 이용한 결과 값 비교검증(Simulation)

선정된 최우선 핵심영향인자 그룹을 이용하여 결과 값을 예측하고 실제 값과 비교한다. 기존 최우선 핵심영향 인자 만을 이용한 결과 값과 비교하여 다중영향인자를 활용한 예측 결과 값의 우수성을 검증한다.

7. 상관정책인자 Group 주기적 재검증 및 지정

상관정책인자 그룹의 주기적 재검증 및 지정을 통해 변동성재화 환경 변화에 따른 예측결과 값의 정확성을 지속적으로 Update 한다. 재검증 주기는 1년 or 횟수로 지정하며, 재검증 방법은 2단계부터 진행한다. 단, 변동 재화의 기반환경이 현격히 변화될 경우, 1단계부터 진행을 고려한다.

Ⅴ. Simulation 및 결과

본 모델의 검증을 위해 변동성 재화 중 Ni금속을 선정하여 다음과 같이 Simulation을 진행 하였다.

1단계로 전문가 설문조사를 통해 9개의 영향인자를 추출하였으며 추출된 영향인자는 다음과 같다.

‘환율(미국), 환율(중국), 미국S&P지수, 금시세, 미국 제조업PMI지수, 국제유가, 중국SSE지수, 중국제조업 PMI지수, VIX지수’

2단계로 핵심영향인자 선정을 위해 추출된 9개의 영향인자와 Ni금속에 대한 상관분석을 진행 하였으며, 이에 대한 선형 회귀식 도출을 위한 차트는 그림5와 같다.

OTNBBE_2023_v23n3_185_f0005.png 이미지

그림 5. 시계열 Data 와 선형차트

Fig. 5. Time Series and Line Chart

상관계수 0.7이상인 영향인자를 추출한 결과 미국 S&P지수 0.93, 중국SSE지수 0.92, 미국제조업PMI지수 0.86, 국제유가 0.73 으로 확인되었다. 이에 따라 상관 계수 0.93인 미국S&P지수를 최우선 핵심영향인자로 선정하였다. 4단계로 2,3단계에서 선정된 최우선영향인자 미국S&P지수와 핵심영향인자인 중국SSE지수, 미국제조업PMI지수, 국제유가를 적용하여 보상인자 추출을 위한 다중회귀분석을 진행하였다. 다중회귀분석 결과는 그림6과 같다.

OTNBBE_2023_v23n3_185_f0006.png 이미지

그림 6. 다중회귀분석 결과

Fig. 6. Multiple Regression Analysis Results

그림6의 다중회귀분석Data를 통해 다중상관계수가 0.963으로 가장 높은 미국제조업PMI지수를 정책인자로 선정하였다. 6단계 실제 값과 예측 값의 검증을 위해 회귀DATA 표본은 20개 이상, 예측검증을 위한 표본은 5개 이상으로 기준을 설정하였다. 예측 값과 실제 값의 비교결과는 그림7.8과 같다.

OTNBBE_2023_v23n3_185_f0007.png 이미지

그림 7. 최우선인자 적용 예측 값

Fig. 7. Predicted value with Overriding Factor Applied

OTNBBE_2023_v23n3_185_f0008.png 이미지

그림 8. 최우선인자와 보상인자 적용 예측 값

Fig. 8. Prediction value applying top priority factor and reward factor

예측에 대한 검증 값은 6단계에서 제시한 오차 값에 대한 평균값으로 결정하였다. 최우선인자만을 적용한 검증 값은 0.872% 로 계산되었으며 보상인자와 함께 적용한 예측 검증 값은 0.864%로 결정되어 보상인자 적용시 예측결과가 보다 정확함을 알 수 있었다.

Ⅵ. 결론 및 고찰

이전까지 진행된 변동성 가치에 대한 모델링의 연구는 각 분야에 국한되어 연구 되었으며, 변동가치에 영향을 주는 인자에 대한 연구 보다는 예측결과 정확성에 초점을 맞추고 있다. 또한 예측 주요영향인자 추출에 대한 객관적인 기준이 미흡하여 타 분야 연구에 적용하기에 어려움이 있었다. 특히, 선택된 핵심영향인자의 선정 기준이 마련되지 않아 타 분야 적용 시 어려움이 있었고, 여러 개의 요인을 효율적으로 연계시키는 방법에 대한 보완이 필요하며, 연계근거가 미흡하였다.

이에 본 연구를 통해 시계열 변동성 재화의 가치 예측 방법에 대한 효율적이고, 객관적 기준을 가진 7단계 적용모델을 제시하였으며, 재화 가치 예측에서 가장 중요한 요소인 핵심영향인자 추출에 대한 근거를 마련하여, 여러 분야의 변동성재화 가치예측에 폭넓게 활용할 수 있는 기반을 마련하였다. 특히 변동재화 중 Ni금속을 적용하여 Simulation을 한 결과 기존 방식에 의한 예측 값 0.872%, 본 연구 모델링을 적용한 예측 값 0.864%로 예측 결과 값이 모델에서 제시한 기준에 부합함을 확인 하였다. 향후 각 전문분야 적용을 통해 예측 정확성을 높이는 연구가 필요할 것으로 판단되며, 모델링의 세부적인 기준 및 단계를 각 분야의 예측 목적에 따라 변수에 대한 보상인자 선정적용 방법을 발전시킬 필요가 있을 것으로 보인다.

References

  1. Se-won Kim, "Predictive Model Developmentof Crop Productivity based on Big Data and Machine Learning", Department of Convergence Engineering, Graduate School of Venture, Hoseo University Seoul, Korea 2020. 
  2. Dong-Hee Kim, Yoo-Jung Kim, Chang-Ki Kim, Hyun-Goo Kim, Yun-Seop Lee, "Development of Short-term Solar Irradiance Forecasting Model Using ARIMA and Seasonal ARIMA in Daejeon", Journal of the Korean Solar Energy Society, Vol. 42. No. 6, pp. 105-114, 2022. DOI : https://doi.org/10.7836/kses.2022.42.6.105 
  3. Ji-young Lee, Jae Pil Ryu, "Prediction of Housing Price Index Using Artificial Neural Network", Journal of Korea Academia-Industrial cooperation Society, Vol. 22. No. 4, pp. 228-234, 2021. DOI : https://doi.org/10.5762/KAIS.2021.22.4.228 
  4. Seong-eun Hong, Tae-ju Park, Hwa-jong Kim "A study on the Prediction Model for Tomato Production and Growth Using ConvLSTM", Journal of KIIT. , Vol. 18. No. 1, pp. 1-10, Jan, 31, 2020. 
  5. Hyung-Rok Oh, Ae-Lin Son, ZoonKy Lee, "Occupational accident prediction modeling and analysis using SHAP", Journal of Digital Contents Society, Vol. 22, No. 7, pp 1115-1123, Jul. 2021. DOI : https://doi.org/10.9728/dcs.2021.22.7.1115 
  6. Ji-Hyun Yoo, "A study on Fine Dust Modeling for Air Quality Prediction", Journal of IKEEE, Vol. 24, No. 4, pp 216-220, Dec. 2020.  https://doi.org/10.7471/IKEEE.2020.24.1.216
  7. Jung-soo Hong, Jin-uk Park, Ji-eun Lee, Kyeong-hun Kim, Seung-Kyun Hong, Sang-hyun Park, "Denoising Multivariate Time Series Modeling for Multi-step Time series Prediction", Journal of KIISE, Vol. 48, No. 8, pp 892-904, Aug. 2021. DOI : https://doi.org/10.5626/jok.2021.48.8.892 
  8. Won-Jun Jung, Dong-Han Ham, "Investigating the Roles of Team Decision Making Performance Factors through Analyzing Accidents in Complex Socio-T echnical Systems", Journal of the Ergonomics Society of Korea, Vol. 38, No. 4, pp. 291-306, Aug 2019. DOI : https://doi.org/10.5143/jesk.2019.38.4.291 
  9. Kwang-Taek Youn, Kyung-Ho Lee, "Study on Pre-Filtering Factor for Effectively improving Dynamic Malware Analysis System", Journal of the Korea Institute of Information Security & Cryptology, Vol. 27, No. 3, pp. 563-5777, June, 2017.