DOI QR코드

DOI QR Code

A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce

맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법

  • 손인국 (충북대학교 정보통신공학부) ;
  • 류은경 (충북대학교 정보통신공학부) ;
  • 박준호 (충북대학교 정보통신공학부) ;
  • 복경수 (충북대학교 정보통신공학부) ;
  • 유재수 (충북대학교 정보통신공학부)
  • Received : 2013.08.01
  • Accepted : 2013.08.11
  • Published : 2013.11.28

Abstract

In recently years, with the growth of social media and the development of mobile devices, the data have been significantly increased. Hadoop has been widely utilized as a typical distributed storage and processing framework. The tasks in Mapreduce based on the Hadoop distributed file system are allocated to the map as close as possible by considering the data locality. However, there are data being requested frequently according to the data analysis tasks of Mapreduce. In this paper, we propose a hot-data replication mechanism to improve the processing speed of Mapreduce according to data access patterns. The proposed scheme reduces the task processing time and improves the data locality using the replica optimization algorithm on the high access frequency of hot data. It is shown through performance evaluation that the proposed scheme outperforms the existing scheme in terms of the load of access frequency.

최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리 프레임워크로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스 에서의 태스크 할당은 데이터의 지역성(locality)를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스 에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 지역성으로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 지역성을 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 감소하는 것을 확인하였다.

Keywords

References

  1. J. Dittrich and J. Quiane-Ruiz, "Efficient Big Data Processing in Hadoop MapReduce," Proc. of the VLDB Endowment, Vol.5, No.12, pp.2014-2015, 2012.
  2. J. Cohen, J. Dolan, M. Dunlap, J. Hellerstein, and C. Welton, "MAD Skills: New Analysis Practices for Big Data," Proc. of the VLDB Endowment, Vol.2, No.2, pp.1481-1492, 2009.
  3. http://hadoop.apache.org.
  4. K. Shvachko, H. Huang, S. Radia, and R. Chansler, "The Hadoop Distributed File System," Proc. of the IEEE Symposium on Massive Storage Systems, pp.1-10, 2010.
  5. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," Communication of the ACM, Vol.81, No.1, pp.107-113, 2008.
  6. F. N. Afrati and J. D. Ullman, "Optimizing Joins in a Map-reduce Environment," Proc. of the International Conference on Extending Database Technology(EDBT '10), pp.99-110, 2010.
  7. I. Hwang, K. Jung, K. Im, and J. Lee, "Improving the Map/Reduce Model through Data Distribution and Task Progress Scheduling," Journal of the Korea Contents Association, Vol.10, No.10, pp.78-85, 2010. https://doi.org/10.5392/JKCA.10.10.078
  8. H.-C. Yang, A. Dasdan, R.-L. Hsiao, and D. S. Parker, "Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters," Proc. of the ACM SIGMOD International Conference on Management of Data, pp.1029-1040, 2007.
  9. S. Ghemawat, H. Gobioff, and S. Leung. "The Google File System," Proc. of ACM Symposium on Operating Systems Principles, pp.29-43, 2003.
  10. H. Zhao, S. Yang, Z. Chen, S. Jin, H. Yin, and L. Li, "MapReduce Model-Based Optimization of Range Queries," Proc. of the International Conference on Fuzzy Systems and Knowledge Discovery(FSKD '12), pp.2487-2492, 2012.