Apache Spark and Map Reduce with Performance Analysis using K-Means

K-means를 이용한 아파치 스파크 및 맵 리듀스 성능 분석

  • Jung, Young-Gyo (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Jung, Dong-Young (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Song, Jun-Seok (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • You, Hee-Yong (Dept. of Electrical and Computer Engineering, Sungkyunkwan University)
  • 정영교 (성균관대학교 전자전기컴퓨터공학과) ;
  • 정동영 (성균관대학교 전자전기컴퓨터공학과) ;
  • 송준석 (성균관대학교 전자전기컴퓨터공학과) ;
  • 윤희용 (성균관대학교 전자전기컴퓨터공학과)
  • Published : 2016.01.12

Abstract

빅 데이터의 데이터 수집 및 분석 기술에 대한 연구는 컴퓨터 과학 분야에서 각광 받고 있다. 또한 소셜 미디어로 인한 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 그러나 빅 데이터 개념을 기반으로 하는 하둡과 스파크는 유즈케이스에 따라 성능이 크게 달라진다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 하둡의 맵리듀스를 줄이고 아파치 스파크를 이용한 빅 데이터 분석을 위하여 머신러닝 알고리즘인 K-Means 알고리즘을 이용하여 프로세싱 모델의 성능을 비교한다.

Keywords