A Comparison of Multi- Way Join Algorithms in MapReduce

맵리듀스를 이용한 멀티웨이 조인 알고리즘의 비교

  • Myung, Jae-Seok (School of Computer Science and Engineering, Seoul National University) ;
  • Lee, Sang-Goo (School of Computer Science and Engineering, Seoul National University)
  • 명재석 (서울대학교 컴퓨터공학부) ;
  • 이상구 (서울대학교 컴퓨터공학부)
  • Published : 2011.06.29

Abstract

맵리듀스는 데이터의 분산 및 병렬 처리를 돕는 프레임워크로서, 하둡과 같은 오픈 소스 맵리듀스 구현이 배포되면서 많은 연구가 이루어지고 있다. 맵리듀스를 이용한 조인은 대용량 데이터 분석을 위한 필수적인 연산이며, 여러 개의 테이블을 한 번의 맵리듀스로 조인하기 위한 멀티웨이 조인 알고리즘에 대한 연구도 계속 진행되고 있다. 이 논문에서는 반복(iteration) 기반 멀티웨이 조인과 중복(replication) 기반 멀티웨이 조인 알고리즘의 장단점을 분석한다. 또한 두 가지 방식의 조인 알고리즘의 단점을 보완하여 하나의 통합적인 2단계 멀티웨이 세미조인을 제시하고, 이를 기존의 방식과 비교한다. 결과적으로, 2단계 멀티웨이 세미조인은 반복 기반의 조인에 비하여 입출력 비용을 절감하고, 중복 기반의 조인에 비하여 커뮤니케이션 비용을 절감한다.

Keywords

Acknowledgement

Supported by : 한국연구재단