A Performance Comparison of Machine Learning Library based on Apache Spark for Real-time Data Processing

실시간 데이터 처리를 위한 아파치 스파크 기반 기계 학습 라이브러리 성능 비교

  • Song, Jun-Seok (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Kim, Sang-Young (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Song, Byung-Hoo (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Kim, Kyung-Tae (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Youn, Hee-Yong (Dept. of Software, Sungkyunkwan University)
  • 송준석 (성균관대학교 정보통신대학 전자전기컴퓨터공학과) ;
  • 김상영 (성균관대학교 정보통신대학 전자전기컴퓨터공학과) ;
  • 송병후 (성균관대학교 정보통신대학 전자전기컴퓨터공학과) ;
  • 김경태 (성균관대학교 정보통신대학 전자전기컴퓨터공학과) ;
  • 윤희용 (성균관대학교 소프트웨어대학 소프트웨어학과)
  • Published : 2017.01.10

Abstract

IoT 시대가 도래함에 따라 실시간으로 대규모 데이터가 발생하고 있으며 이를 효율적으로 처리하고 활용하기 위한 분산 처리 및 기계 학습에 대한 관심이 높아지고 있다. 아파치 스파크는 RDD 기반의 인 메모리 처리 방식을 지원하는 분산 처리 플랫폼으로 다양한 기계 학습 라이브러리와의 연동을 지원하여 최근 차세대 빅 데이터 분석 엔진으로 주목받고 있다. 본 논문에서는 아파치 스파크 기반 기계 학습 라이브러리 성능 비교를 통해 아파치 스파크와 연동 가능한 기계 학습라이브러리인 MLlib와 아파치 머하웃, SparkR의 데이터 처리 성능을 비교한다. 이를 위해, 대표적인 기계 학습 알고리즘인 나이브 베이즈 알고리즘을 사용했으며 학습 시간 및 예측 시간을 비교하여 아파치 스파크 기반에서 실시간 데이터 처리에 적합한 기계 학습 라이브러리를 확인한다.

Keywords