Data Sampling-based Angular Space Partitioning for Parallel Skyline Query Processing

데이터 샘플링을 통한 각 기반 공간 분할 병렬 스카이라인 질의처리 기법

  • 정재화 (한국방송통신대학교 컴퓨터과학과)
  • Received : 2015.08.07
  • Accepted : 2015.08.11
  • Published : 2015.09.30

Abstract

In the environment that the complex conditions need to be satisfied, skyline query have been applied to various field. To processing a skyline query in centralized scheme, several techniques have been suggested and recently map/reduce platform based approaches has been proposed which divides data space into multiple partitions for the vast volume of multidimensional data. However, the performances of these approaches are fluctuated due to the uneven data loading between servers and redundant tasks. Motivated by these issues, this paper suggests a novel technique called MR-DEAP which solves the uneven data loading using the random sampling. The experimental result gains the proposed MR-DEAP outperforms MR-Angular and MR-BNL scheme.

상호 연관되는 복잡한 데이터 조건이 존재하는 환경에서 스카이라인 질의는 의사결정 시스템 등 폭넓은 애플리케이션 활용 가능성으로 다양한 분야에서 연구되어 왔다. 중앙집중식 환경에서 스카이라인 질의처리 기법이 초기에 제안되었으며 최근 대량의 다차원 데이터에 대해 데이터 공간을 분할하여 맵/리듀스 플랫폼 상에서 병렬적으로 처리하는 기법이 제안되었다. 그러나 현재까지의 기법이 비균등적 실행과 높은 중복 작업으로 효율성이 저하된다는 문제점을 배경으로 본 논문에서는 랜덤 샘플링을 통해 데이터 분포를 추정하여 비균등 분할 문제를 해결하고 각 기반의 데이터 공간을 분할하여 스카이라인 처리 과정에서 중복 작업을 최소화한 새로운 기법 MR-DEAP를 제안한다. 마지막으로 다양한 환경에서의 실험결과 제안된 기법이 다른 각 기반 분할과 그리드 분할 기법보다 우수한 것을 입증하였다.

Keywords

References

  1. 조성경, 김동은, 김응모. "효율적인 프렌차이즈 지점 선택을 위한 맵리듀스를 이용한 스카이라인 질의 처리 기법." 한국정보과학회2014 한국컴퓨터종합학술대회 논문집 (2014): 1683-1685.
  2. Borzsony, S., Kossmann, D., & Stocker, K. (2001). The skyline operator. In Data Engineering, 2001. Proceedings. 17th International Conference on (pp. 421-430). IEEE.
  3. Vlachou, A., Doulkeridis, C., & Kotidis, Y. (2008, June). Angle-based space partitioning for efficient parallel skyline computation. In Proceedings of the 2008 ACM SIGMOD international conference on Management of data (pp. 227-238). ACM.
  4. Zhang, S., Mamoulis, N., & Cheung, D. W. (2009, June). Scalable skyline computation using object-based space partitioning. In Proceedings of the 2009 ACM SIGMOD International Conference on Management of data (pp. 483-494). ACM.
  5. Chandler, P., & Sweller, J. (1991). Cognitive load while learning to use a computer program. Applied Cognitive Psychology, 10(1), 151-170.
  6. Kriegel, H. P., & Zimek, A. (2008, August). Angle-based outlier detection in high-dimensional data. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 444-452). ACM.
  7. Samet, H. (2006). Foundations of multidimensional and metric data structures. Morgan Kaufmann.
  8. Park, Y., Min, J. K., & Shim, K. (2013). Parallel computation of skyline and reverse skyline queries using mapreduce. Proceedings of the VLDB Endowment, 6(14), 2002-2013.
  9. Kossmann, D., Ramsak, F., & Rost, S. (2002, August). Shooting stars in the sky: An online algorithm for skyline queries. In Proceedings of the 28th international conference on Very Large Data Bases (pp. 275-286). VLDB Endowment.
  10. Dean, J., & Ghemawat, S. (2008). mapreduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113. https://doi.org/10.1145/1327452.1327492
  11. Vitter, J. S. (1985). Random sampling with a reservoir. ACM Transactions on Mathematical Software (TOMS), 11(1), 37-57. https://doi.org/10.1145/3147.3165
  12. B. Zhang, S. Zhou, and J. Guan. (2011). Adapting skyline computation to the mapreduce framework: Algorithms and experiments. In DASFAA Workshops (pp. 403-414).
  13. Chen, L., Hwang, K., & Wu, J. (2012). mapreduce skyline query processing with a new angular partitioning approach. In Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), 2012 IEEE 26th International (pp. 2262-2270). IEEE.