DOI QR코드

DOI QR Code

Efficient Computation of Grouping Sets Queries Using MapReduce

맵리듀스에서 Grouping Sets 질의의 효율적인 계산 기법

  • Park, So-Jeong (Division of Computer Science, Sookmyung Women's University) ;
  • Park, Eun-Ju (Division of Computer Science, Sookmyung Women's University) ;
  • Lee, Ki Yong (Division of Computer Science, Sookmyung Women's University)
  • 박소정 (숙명여자대학교 컴퓨터과학부) ;
  • 박은주 (숙명여자대학교 컴퓨터과학부) ;
  • 이기용 (숙명여자대학교 컴퓨터과학부)
  • Published : 2014.11.05

Abstract

맵리듀스(MapReduce)는 대용량의 데이터를 여러 컴퓨터에서 분산, 병렬 처리하는 프레임워크이다. Grouping sets 질의는 사용자가 지정한 여러 개의 group-by들을 모두 구하는 질의로서, 롤업(rollup)과 큐브(cube)가 너무 많은 결과를 반환하는 단점을 보완하여 원하는 group-by들에 대한 결과만 얻을 수 있도록 한다. 본 논문은 맵리듀스 환경에서 grouping sets 질의를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 grouping sets 질의를 2개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 첫 번째 맵리듀스 잡은 grouping sets 질의에 포함된 group-by들이 모두 계산될 수 있는 '부모' group-by를 먼저 계산한다. 두 번째 맵리듀스 잡은 부모 group-by를 입력으로 하여 grouping sets 질의에 포함된 group-by들을 각각 계산한다. 부모 group-by의 크기가 입력 데이터의 크기에 비해 매우 작은 경우, 제안 방법은 입력 데이터로부터 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 보인다. 실험을 통해 제안 방법이 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 가짐을 보인다.

Keywords