Distributed Processing Environment for Outlier Removal to Analyze Big Data

대용량 데이터 분석을 위한 이상치 제거용 분산처리 환경

  • Hong, Yejin (Dept. of Information and Communication, Dongguk University) ;
  • Na, Eunhee (Dept. of Information and Communication, Dongguk University) ;
  • Jung, Yonghwan (Korea Institute of Science and Technology Information) ;
  • Kim, Yangwoo (Dept. of Information and Communication, Dongguk University)
  • 홍예진 (동국대학교 정보통신학과) ;
  • 나은희 (동국대학교 정보통신학과) ;
  • 정용환 (한국과학기술정보원) ;
  • 김양우 (동국대학교 정보통신학과)
  • Published : 2016.07.12

Abstract

IoT 데이터는 비정형 데이터로 가공되고 분석하였을 때 비로소 가치를 갖기에 전 세계적으로 빅데이터 기술에 관심이 집중되고 있다. IoT 데이터 중 많은 부분을 차치하는 센서 데이터는 수집이 용이하고 활용범위가 넓기 때문에 여러 분야에서 사용되고 있다. 하지만 센서가 정상적으로 작동하지 못한 경우에는 실제와는 다른 값인 이상치를 포함하여 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위하여 수집된 원자료의 데이터를 분석하기 전에 이상치 탐지 및 제거를 하고자 한다. 또한 점점 늘어나고 있는 대용량 데이터를 신속하게 처리하기 위하여 메모리 접근방식인 스파크를 사용한 분산처리환경에서 이상치 탐지 및 제거하는 것을 제안한다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며 제안한 기법의 성능 평가를 위해 총 3가지 환경에서 비교하여 실험하였다. 실험을 통해 데이터의 용량이 커질수록 분산처리환경에서 스파크를 사용하여 처리하는 방식이 가장 빠를 것 이라는 결과를 얻었다.

Keywords