DOI QR코드

DOI QR Code

Research Trends Analysis of Machine Learning and Deep Learning: Focused on the Topic Modeling

머신러닝 및 딥러닝 연구동향 분석: 토픽모델링을 중심으로

  • 김창식 (세종대.배화여자대학교 글로벌관광과) ;
  • 김남규 (국민대 경영정보학부/비즈니스IT전문대학원) ;
  • 곽기영 (국민대 경영대학/비즈니스IT전문대학원)
  • Received : 2019.06.03
  • Accepted : 2019.06.17
  • Published : 2019.06.30

Abstract

The purpose of this study is to examine the trends on machine learning and deep learning research in the published journals from the Web of Science Database. To achieve the study purpose, we used the abstracts of 20,664 articles published between 1990 and 2017, which include the word 'machine learning', 'deep learning', and 'artificial neural network' in their titles. Twenty major research topics were identified from topic modeling analysis and they were inclusive of classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem. The analysis of the time-series linear regression showed that all identified topics in machine learning research were 'hot' ones.

Ⅰ. 서론

미래 산업의 핵심으로 취급되는, 인공지능을 선도하는 글로벌 Top 10 기업에는 Nvidia Corporation, Alphabet (Google), Twilio, Amazon, Micron Technology, Microsoft, Baidu, Intel Corp, Facebook, Tencent가 있다[1]. 이들 기업들은 분류, 군집, 회귀 문제 등을 다루는 머신러닝, 딥러닝 및 인공지능에 지대한 관심을 두고 있다.

이러한 인공지능은 딥마인드의 알파고가 인간을 상대로 한 바둑에서 승리함으로써 폭발적인 관심을 받기 시작했고, 4차 산업혁명 시대의 핵심으로 평가받고 있다. 알파고의 후속버전인 알파고-Zero는 지도학습 개념을 벗어난 강화학습을 기반으로 진화하였고, 이는 기존의 알파고보다 월등히 뛰어난 성능을 보여주었다. 특히 알파고-Zero는 바둑 이론을 깨우치고 실력을 갖추는데 불과 72시간 정도 소요되었다. 알파고-Zero는 중국의 커제 9단과 대국했던, 알파고-Master에게 크게 승리했고, 한국의 이세돌 9단과 대국했던 알파고를 대상으로 완벽하게 승리했다[2].

한편 다양한 산업분야에서도 당면한 문제를 머신러닝 및 딥러닝 기법을 적용하여 해결하기 위한 시도를 하고 있다. 예를 들면 제조공정 가상계측 및 공정 제어, 제조검사 리포트 분석, 제품 고장 원인 도출, 건물 내 에너지 사용 패턴 분석, 의료 기록 데이터를 활용 지식발견, 영화 관객 수 예측 및 흥행 요인 분석 등이 있다[3].

본 연구는 이상의 선행 연구들과 다음과 같은 차이가 있다. 첫째, 본 연구는 최근 텍스트마이닝 연구에서 중요하게 다루어지는 토픽모델링 기법을 적용하였다. 둘째, 기존의 선행 연구들이 주로 당면한 문제를 풀기 위한 시도였으나, 본 연구는 기존 연구들의 트렌드에 초점을 두었다.

본 논문에서 다루는 머신러닝 및 딥러닝과 관련된 연구는 1950~1959년 3편에서 2000~2009년 5,773편, 2010~2017년 13,084편으로 급격하게 증가하였다. 이는 최근 다양한 분야의 수많은 연구자들이 머신러닝 및 딥러닝 관련분야에 관심을 두고 연구를 진행하고 있음을 의미한다. 이러한 시점에 머신러닝 및 딥러닝과 관련된 연구의 트렌드를 분석해 보는 것은 의미가 있을 것이다.

본 연구의 목적은 인공신경망을 포함하는 머신러닝 및 딥러닝 트렌드를 분석하여 시사점을 도출하는 것이다. 연구 목적을 달성하기 위해서, 웹오브사이언스 데이터베이스의 검색 제목에 ‘머신러닝’, ‘딥러닝’ 및 ‘인공신경망’ 키워드를 포함한 논문을 검색하였으며, 1990년부터 2016년까지의 20,664 편의 논문이 추출되었다. 추출된 논문의 초록은 토픽모델링 기법을 활용하여 분석되었다. 이 연구의 결과는 다양한 분야의 연구자들이 머신러닝 및 딥러닝 연구를 수행하는데 있어 의미있는 시사점을 제공해 줄 수 있을 것이다.

본 연구는 2장에서 머신러닝 및 딥러닝 관련 선행연구에 대해서 고찰하였으며, 3장에서는 토픽모델링 등을 활용한 연구방법에 대하여 제시하였고, 4장에서는 분석결과를 제시하였다. 끝으로 5장에서는 결론으로 구성하였다.

Ⅱ. 관련연구

2.1 머신러닝 및 딥러닝 문헌연구

인공지능의 한 분야인 머신러닝은 컴퓨터가 명시적인 프로그래밍 없이, 학습 할 수 있는 능력을 부여하는 분야로 정의[4]되고, “데이터라는 형태로 얻어지는 경험(experience)으로부터 특정한 목표 작업(task)에 대한 성능(performance)을 향상시키는 일련의 과정”이라고도 정의된다[3, p.34] [5, p.2].

머신러닝은 주요한 학습 알고리즘으로 인공신경망을 활용하고 있으며, 인공신경망은 계층이 단순한 초기 쉘로우 단계에서, 계층을 심화한 딥러닝 개념으로 발전하고 있다. 이러한 딥러닝은 “deep neural network을 활용하는 machine learning 기술”[6,p.31]이라고 정의할 수 있다.

머신러닝의 대표적인 방법론은 학습 데이터에 결과 값(label)이 있는 경우와 없는 경우에 따라서 지도(supervised)학습과 비지도(unsupervised)학습으로 분류한다. 지도학습은 분류(classification)와 예측(prediction) 문제에 적용가능하고, 비지도학습은 군집(clustering) 문제에 활용가능하다[3]. 한편, 머신러닝은 지도학습, 비지도학습, 강화학습으로 구분되기도 한다.

강화학습(reinforcement learning)은 머신러닝의 한분야로서, “어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다”[7].

지도학습의 분류모델에는 알고리즘에 따라서 kNN(k nearest neighbor), 서포트벡터머신(support vector machine), 의사결정트리(decision Tree) 모델이 대표적이고, 예측모델에서 대표적인 것은 회귀(regression)모델이다. 특히 회귀모델에서 분류와 같이 범주형(categorical) 결과 값을 예측하는 경우에도 적용이 가능한데, 이 경우에는 로지스틱 회귀라고 한다. 비지도학습의 군집 모델은 학습을 위한 데이터가 레이블을 보유하고 있지 않은 경우이므로, 마케팅에서 고객 세분화, 질병분류 등 적용되는 분야는 매우 다양하다[8-9].

최근 인공지능 분야의 주요한 이슈 중의 하나는 인공신경망 기반의 딥러닝 분야다. 딥러닝은 머신러닝의 접근 법 중 하나인 신경망 모형 패러다임에 그 뿌리를 두고 있다. 단일 퍼셉트론에서 해결하지 못하는 문제를 다층 신경망 이론(다층 퍼셉트론)으로 해결하면서 주목을 받고 있다.

2.2 토픽모델링 문헌연구

텍스트마이닝은 “방대한 양의 텍스트 데이터에 포함된 수많은 정보를 사용자가 원하는 목적에 맞게 요약하는 기법 및 과정"으로 정의한다[9, p475]. 최근 텍스트마이닝 기법을 활용하는 연구들은 국내 문헌정보학[10], 이슈 생명주기 분석[11], 개인의 관심흐름[12], 호텔연구 흐름[13], 정보시스템연구 흐름[14], 관광분야 트렌드[15], 정보보호[16], SNS[17], 빅데이터[18] 등에서 다양하게 이루어졌다.

한편, 텍스트마이닝은 텍스트의 빈도 분석(frequency analysis), 텍스트 군집화(clustering), 텍스트분류(classification) 등에 사용된다.

최근 연구동향 관련 분석에는 텍스트마이닝 기법 중에서 토픽 분석(topic analysis)이 주로 사용되고 있는데, 토픽 모델링은 수많은 문서로부터 핵심적인 이슈를 파악하고, 시간의 변화에 따른 이슈의 추세를 파악하기 위해 주로 사용된다. 토픽 분석은 용어의 빈도수에 기반으로 하여 유사 문서를 군집화한 뒤, 각 군집을 대표하는 주요 토픽들을 추출하여 토픽 키워드 집합을 제안하는 방식으로 이루어진다[9][19]. 본 연구에서는 잠재의미분석 개념을 바탕으로 적용된 SAS Enterprise Miner 14.1(이하 SAS EM)를 활용하였다.

Ⅲ. 연구방법

3.1 분석방법

본 연구는 데이터 수집, 데이터 전처리, 데이터 분석의 절차를 따른다. 데이터는 웹오브사이언스 데이터베이스에서 수집하였고, 데이터 전처리는 excel과 SAS EM을 활용하였으며, 데이터 분석은 SAS EM으로 토픽모델링을 수행하였고, SPSS를 활용하여 시계열회귀분석을 하였다. 또한 워드클라우드 분석은 RProgramming을 활용하였다. 다음 <그림 1>은 분석절차이다[13-18].

 DGTSA8_2019_v15n2_19_f0001.png 이미지

<그림 1> 분석 절차

3.2 데이터수집

본 연구는 2018년 3월 31일 기준으로, 웹오브사이언스(web of science) 데이터베이스에서 주제에 ‘machine learning’, ‘deep learning’, 및 ‘artificial neural network’ 키워드가 포함된 논문 21,204건(1958년~2017년)중에서 초록이 포함된 20,664편(1990년~2017년)을 대상으로 하였다. 다음 <표 1>은 웹오브사이언스에서 검색된 논문 편수이고, <표2>는 데이터 전처리 후 분석 대상 논문 편수이다.

 <표 1> 검색된 논문 편수

DGTSA8_2019_v15n2_19_t0001.png 이미지

<표 1> 검색된 논문 편수

DGTSA8_2019_v15n2_19_t0002.png 이미지

3.3 토픽 모델링 절차

본 연구의 목적을 달성하기 위해서 우선 토픽모델링을 실시하였고, 이후 시계열회귀분석을 통해 연도별 토픽변화를 파악하였다. 분석 대상 논문 20,664편의 초록을 대상으로, 전처리 작업을 위해서 excel을 사용하였다. 전처리 후 SAS Enterprise Guide7.2(SAS EG)를 통해 SAS EM 분석용 파일로 변환하였고, SAS EM의 토픽모델링을 기능을 활용하여 분석하였다. SAS EM을 활용한 토픽모델링은 첫째, 분석용 텍스트데이터 불러오기 둘째, 텍스트 파싱 셋째, 텍스트 필터 넷째, 토픽모델링의 단계로 수행 된다[13-17].

다음 <표 3>은 토픽모델링 결과 중 일부이다.

 <표 3> 토픽모델링 결과 샘플

DGTSA8_2019_v15n2_19_t0003.png 이미지

Ⅳ. 분석결과

토픽모델링 결과 데이터를 토대로 SPSS를 활용하여 시계열회귀분석을 진행하였고, R을 활용하여 워드클라우드 분석을 수행하였다.

4.1 토픽모델링 분석

토픽 모델링 결과 빈도는 각각의 토픽이 해당 기간 동안 얼마나 연구되었는지를 나타내주며, 토픽명은 핵심 키워드를 대표하는 용어로 선정하였다. 1990년에서 2017년까지의 토픽 모델링 결과 classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem 순으로 토픽이 도출되었다. 토픽 모델링 분석 결과 classification accuracy 토픽이 가장 높은 순위에 위치한 것으로 나타났다.

다음 <표 4>은 토픽 모델링 결과이다.

 <표 4> 토픽모델링 결과

DGTSA8_2019_v15n2_19_t0004.png 이미지

4.2 워드클라우드 분석

다음 <그림 2>은 1990년에서 2017년까지의 워드클라우드 분석결과를 나타낸 것이다. 워드클라우드 분석 결과는 토픽모델링 결과를 시각화를 통해 의미 전달을 효율적으로 해 준다.

 DGTSA8_2019_v15n2_19_f0002.png 이미지

<그림 2>워드클라우드 분석 결과

워드클라우드 분석결과, classification accuracy, machine learning, optimization problem, time series model 등이 중요한 토픽임을 알 수 있다.

4.3 시계열회귀 분석

핵심 토픽의 변화를 시간변화에 따라 파악하기 위해, 토픽모델링 결과 값을 기준으로 SPSS를 활용하여 시계열회귀분석을 수행하였다.

시계열회귀분석을 통해 각 토픽들의 연도별 변화 추이를 파악할 수 있다. 또한 시계열회귀분석 결과를 토대로 회귀계수가 양수이면서 통계적으로 유의미한 토픽을 핫 토픽(hot topic), 회귀계수가 음수이며 유의미한 토픽을 콜드 토픽(cold topic)으로 표기한다[20]. 통계적으로 유의하지 않은 토픽은 중립토픽(neutral topic)으로 나타낸다.

다음 <표 5>, <그림 3>, <그림 4>는 시계열회귀분석 결과이다. 모든 토픽이 통계적으로 유의미하게 상승 추세를 보임을 알 수 있다.

 <표 5> 시계열 회귀분석 결과

DGTSA8_2019_v15n2_19_t0005.png 이미지

 DGTSA8_2019_v15n2_19_f0003.png 이미지

<그림 3> 핫 토픽 트렌드

 DGTSA8_2019_v15n2_19_f0004.png 이미지

<그림 4> 각 토픽별 트렌드

Ⅴ. 결론

본 연구에서는 1990년부터 2017년까지 머신러닝 및 딥러닝 관련 20,664개 논문초록을 대상으로 토픽 모델링과 시계열회귀분석 방법을 사용하여, 연구동향을 분석하였다.

본 연구의 분석 결과, 첫째, 토픽모델링 결과 총 20개의 토픽(classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem)이 도출되었다. 둘째, 시계열 회귀분석 결과 모든 토픽이 상승추세를 보이는 것으로 나타났다. 이는 모든 토픽이 통계적으로 유의미하게 상승하고 있음을 나타낸다.

본 연구결과를 바탕으로 도출된 시사점은 다음과 같다. 기술적 관점으로는 classification accuracy, optimization problem, time series model 등이 중요한 토픽으로 확인 되었다. 이는 기존의 데이터를 학습이라는 개념을 적용하여, 성과를 도출하기 위해서 분류 정확도, 최적화, 시계열 성과 확인을 위한 기술적인 접근이 중요하게 다루어져 왔음을 의미한다. 비즈니스 응용관점으로는 cancer patient, fault diagnosis, control system, power system 등의 토픽이 중요하게 나타났다. 이는 사람의 생명과 직결된 분야, 안전과 관련된 분야 등에서 머신러닝 및 딥러닝 기법을 적용한 연구가 많이 이루어지고 있음을 의미한다.

이러한 연구결과를 바탕으로, 학자들은 연구의 방향성을 수립하는데, 실무자들은 비즈니스 사업기회 또는 업무효율을 위한 접근에 활용될 수 있을 것이다.

결론적으로 2010년 이후 머신러닝 및 딥러닝 관련연구는 광범위하게 많이 수행되었음을 알 수 있다. 이는 기술의 발전으로 인해, 다양한 분야의 연구자들이 자신의 도메인에 머신러닝 및 딥러닝을 접목한 연구가 이루어지기 때문이라 판단된다. 따라서 연구자 및 실무자들은 머신러닝이 특정분야의 전유물이 아님을 인지할 필요가 있다. 특히, 실무자들은 각자의 비즈니스 도메인에서 머신러닝 및 딥러닝 기법의 응용을 통해 성과를 창출하는 방안에 대하여 관심을 가져야 할 것이다.

본 연구는 여러 가지 시사점을 도출하였음에도 불구하고, 분석데이터의 세분화 관점에서 일부 한계가 있다. 향후 보다 다양한 데이터를 그룹화 해서 연구를 확장한다면 의미 있는 시사점을 도출할 수 있을 것이다.

Acknowledgement

Supported by : 한국연구재단

References

  1. itechkorea, http://www.itechkorea.com/4%EC%B0%A8-%EC%82%B0%EC%97%85%EC%9D%98-%ED%95%B5%EC%8B%AC-ai-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EC%9D%84-%EC%84%A0%EB%8F%84%ED%95%98%EB%8A%94-top-10-%EA%B8%B0%EC%97%85/, 2018
  2. Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A, Chen, Y., Lillicrap, T., Hui, F., Sifre, L., Driessche, G. V. D., Graepel, T., & Hassabis, D. "Mastering the game of Go without human knowledge," Nature, 550, 2017, pp. 354-359. https://doi.org/10.1038/nature24270
  3. 조성준.강석호, "머신러닝(인공지능)의 산업 응용," IE매거진, 23(2), 2016, pp. 34-38.
  4. Samuel, A. L. "Some studies in machine learning using the game of checkers," IBM Journal of research and development, 44, 1959, pp. 206-226.
  5. Mitchell, T. M. "Evaluating hypotheses," Machine Learning, 1997, pp. 128-153.
  6. 최영상, "Deep learning 및 지능 기술의 현황과 미래", IE 매거진, 22(2), 2015, pp. 31-35.
  7. Wikipeida, https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5, 2019.
  8. 곽기영, SPSS를 이용한 통계데이터분석, 청람, 2019. pp. 1-767.
  9. 김남규.이동훈.최호창, William Xiu Shun Wong, " 텍스트 분석 기술 및 활용 동향," 한국통신학회논문지, 42(2), 2017, pp. 471-492. https://doi.org/10.7840/kics.2017.42.2.471
  10. 박자현.송민, "토픽모델링을 활용한 국내 문헌정보학 연구동향 분석", 정보관리학회지, 30(1), 2013, pp. 7-32. https://doi.org/10.3743/KOSIM.2013.30.1.007
  11. 임명수.김남규, "기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론," 지능정보연구, 20(4), 2014, pp. 25-41. https://doi.org/10.13088/JIIS.2014.20.4.25
  12. 류신.김남규, "거시적 이슈 트래킹의 한계 극복을 위한 개인 관심 트래킹 방법론," 한국IT서비스학회지, 13(4), 2014, pp. 275-287. https://doi.org/10.9716/KITS.2014.13.4.275
  13. 박준석.김창식.곽기영, "텍스트마이닝과 소셜네트워크분석 기법을 활용한 호텔분야 연구동향 분석," 관광레저연구, 28(9), 2016, pp. 209-226.
  14. 김창식.최수정.곽기영, "토픽모델링과 시계열회귀 분석을 활용한 정보시스템분야 연구동향 분석," 디지털콘텐츠학회논문지, 18(6), 2017, pp. 1143-1150.
  15. 김창식.곽기영.윤혜진, "관광분야 연구동향 분석: 토픽모델링과 시계열분석을 중심으로," 관광레저연구, 29(12), 2017, pp. 25-39.
  16. 김태경.김창식, "텍스트마이닝을 이용한 정보보호 연구동향 분석," 디지털산업정보학회논문지, 14(2), 2018, pp. 19-25. https://doi.org/10.17662/KSDIM.2018.14.2.019
  17. 윤혜진.김창식.곽기영, "Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services," 디지털콘텐츠학회논문지, 19(3), 2018, pp. 513-519.
  18. 박종순.김창식, "빅데이터 연구동향 분석: 토픽 모델링을 중심으로," 디지털산업정보학회 논문지, 15(1), 2019, pp. 1-7.
  19. 현윤진.김남규, "텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안," 한국통신학회논문지, 42(2), 2017, pp. 493-504. https://doi.org/10.7840/kics.2017.42.2.493
  20. Griffiths, T. L., & Steyvers, M. "Finding scientific topics," Proceedings of the National academy of Sciences, 101(suppl 1), 2004, pp. 5228-5235. https://doi.org/10.1073/pnas.0307752101