A Performance Analysis Based on Spark Application

Spark 애플리케이션 기반의 성능 분석

  • Jung, Young Gyo (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Lee, Byung-Jun (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Cho, Young-Joo (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Youn, Hee Yong (Dept. of Electrical and Computer Engineering, Sungkyunkwan University)
  • 정영교 (성균관대학교 정보통신대학) ;
  • 이병준 (성균관대학교 정보통신대학) ;
  • 조영주 (성균관대학교 정보통신대학) ;
  • 윤희용 (성균관대학교 정보통신대학)
  • Published : 2016.01.12

Abstract

아파치 스파크는 효율적으로 대용량 데이터를 처리하기 위해 분산 메모리 추상화를 사용하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만 아파치 스파크 플랫폼의 특정 작업의 성능은 입력 데이터의 유형과 크기, 디자인 및 알고리즘의 구현 및 컴퓨팅 능력에 따라 메모리 사용량 및 I/O 비용이 크게 달라질 수 있다는 문제점이 있다. 이러한 문제점을 해결하기 위하여 본 논문에서는 아파치 스파크 플랫폼에 대한 높은 정밀도 작업 성능을 예측할 수 있도록 CPU core수의 증가에 따른 WordCount 시뮬레이션을 비교 평가 하였다.

Keywords