A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce

맵리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법

  • 손인국 (충북대학교 전기.전자.정보.컴퓨터학부 정보통신 공학전공) ;
  • 류은경 (충북대학교 전기.전자.정보.컴퓨터학부 정보통신 공학전공) ;
  • 박준호 (충북대학교 전기.전자.정보.컴퓨터학부 정보통신 공학전공) ;
  • 복경수 (충북대학교 전기.전자.정보.컴퓨터학부 정보통신 공학전공) ;
  • 유재수 (충북대학교 전기.전자.정보.컴퓨터학부 정보통신 공학전공)
  • Published : 2013.05.24

Abstract

최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리시스템으로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스에서 테스크 할당은 데이터의 로컬리티를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 로컬리티로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 로컬리티를 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 제안하는 기법은 기존 기법에 비해 모든 노드의 데이터 이동이 감소하여 접근빈도의 분포가 균형적인 것을 확인하였다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 약 8% 감소하는 것을 확인하였다.

Keywords