A performance comparison for Apache Spark platform on environment of limited memory

제한된 메모리 환경에서의 아파치 스파크 성능 비교

  • Song, Jun-Seok (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Kim, Sang-Young (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Lee, Jung-June (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Youn, Hee-Yong (Dept. of Electrical and Computer Engineering, Sungkyunkwan University)
  • 송준석 (성균관대학교 전자전기컴퓨터공학과) ;
  • 김상영 (성균관대학교 전자전기컴퓨터공학과) ;
  • 이정준 (성균관대학교 전자전기컴퓨터공학과) ;
  • 윤희용 (성균관대학교 전자전기컴퓨터공학과)
  • Published : 2016.01.12

Abstract

최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

Keywords