DOI QR코드

DOI QR Code

Performance Analysis on Declustering High-Dimensional Data by GRID Partitioning

그리드 분할에 의한 다차원 데이터 디클러스터링 성능 분석

  • 김학철 (부산대학교 대학원 전자계산학과) ;
  • 김태완 (행정자치부 전자정부전략개발실) ;
  • 이기준 (부산대학교 정보 컴퓨터공학부)
  • Published : 2004.10.01

Abstract

A lot of work has been done to improve the I/O performance of such a system that store and manage a massive amount of data by distributing them across multiple disks and access them in parallel. Most of the previous work has focused on an efficient mapping from a grid ceil, which is determined bY the interval number of each dimension, to a disk number on the assumption that each dimension is split into disjoint intervals such that entire data space is GRID-like partitioned. However, they have ignored the effects of a GRID partitioning scheme on declustering performance. In this paper, we enhance the performance of mapping function based declustering algorithms by applying a good GRID par-titioning method. For this, we propose an estimation model to count the number of grid cells intersected by a range query and apply a GRID partitioning scheme which minimizes query result size among the possible schemes. While it is common to do binary partition for high-dimensional data, we choose less number of dimensions than needed for binary partition and split several times along that dimensions so that we can reduce the number of grid cells touched by a query. Several experimental results show that the proposed estimation model gives accuracy within 0.5% error ratio regardless of query size and dimension. We can also improve the performance of declustering algorithm based on mapping function, called Kronecker Sequence, which has been known to be the best among the mapping functions for high-dimensional data, up to 23 times by applying an efficient GRID partitioning scheme.

대규모의 데이터를 다루는 여러 시스템에서 데이터를 다수의 병렬 디스크에 분산시켜 저장한 후 질의 처리시 동시에 여러 개의 디스크를 접근함으로써 입출력 성능의 향상을 위한 많은 노력들이 행해져 왔다. 대부분 이전 연구들은 데이터 공간을 이루는 각 차원이 겹치지 않는 여러개의 구간으로 나누어져 전체 데이터 공간이 그리드 형태로 분할되어 있다는 가정하에 각 차원의 구간 번호로 결정되는 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 개발에 집중되었다. 하지만, 그들은 데이터 공간을 그리드 형태로 분할하는 방법이 전체 디클러스터링 알고리즘 성능에 미치는 영향을 간과하였다. 본 논문에서 우리는 효과적인 그리드 분할을 통하여 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 향상 시켰다. 이를 위하여 영역 질의 크기가 주어졌을 때 겹치는 그리드 셀의 수를 예측하는 모델을 제시하였으며 이를 이용하여 가능한 그리드 분할 방법들 중에서 질의 크기를 감소시키는 분할 방법을 선택하였다. 일반적으로, 다차원 데이터에 대해서는 이진 분할을 하지만 본 논문에서는 더 작은 수의 차원을 선택해서 여러 번 분할함으로써 질의를 만족하는 그리드 셀의 수를 감소시켰다. 다양한 실험 결과에 의하면 본 논문에서 제시한 예측 모델은 질의 크기와 차원에 관계없이 0.5% 이내의 에러율을 보이는 것으로 나타났다. 또한 효과적인 그리드 분할을 통하여 다차원 데이터에 대해서 가장 성능이 좋은 것으로 소개되고 있는 Kronecker sequence 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 최대 23배까지 향상시킬 수 있음을 알 수 있었다.

Keywords

References

  1. M. J. Atallah and S. Prabhakar, (Almost) Optimal Parallel Block Access for Range Queries, In Prog. PODS Conf. pp. 205-215, 2000 https://doi.org/10.1145/335168.335224
  2. R. Bhatia, R. K. Sinha and C.-M. Chen, Declustering Using Golden Ratio Sequences, In Prog. ICDE Conf. pp.271-280, 2000 https://doi.org/10.1109/ICDE.2000.839419
  3. C-M. Chen, R. Bhatia and R. K. Sinha, Multidimensional Declustering Schemes Using Golden Ratio and Kronecker Sequences, IEEE TKDE, Vol.15, No.3, pp.659-670, 2003 https://doi.org/10.1109/TKDE.2003.1198397
  4. C. M. Chen and C. T. Cheng, From Discrepancy to Declustering : Near optimal multidimensional declustering strategies for range queries, In Proc PODS Conf. pp.29-38, 2002 https://doi.org/10.1145/543613.543618
  5. H. C. Du and J. S. Sobolewski, Disk Allocation for Cartisian Files on Multiple-Disk Systems, ACM Trans. Database Systems, Vol.7, No.1, pp.82-102, 1982 https://doi.org/10.1145/319682.319698
  6. C. Faloutsos and P. Bhagwat, Declustering Using Fractals, In Prog. Parallel and Distributed Information Systems Conf. pp.18-25, 1993 https://doi.org/10.1109/PDIS.1993.253077
  7. C. Faloutsos and D. Metaxas, Disk Allocation Methods Using Error Correcting Codes, IEEE Trans on Computers, Vol.40, No.8, pp.907-914, 1991 https://doi.org/10.1109/12.83636
  8. M. H. Kim and S. Pramanik, Optimal File Distribution For Partial Match Retrieval, In Prog. SIGMOD Conf, pp. 173-182, 1988 https://doi.org/10.1145/971701.50221
  9. T-W. Kim, A Distance-Based Packing Method for High Dimensional Data, PhD thesis, Pusan National University, 2003
  10. S-W. Kuo, M. Winslett, Y. Cho and J. Lee, New GDM-based Declustering Methods for Parallel Range Queries, In Proc. IDEAS Symp, pp.119-127, 1999 https://doi.org/10.1109/IDEAS.1999.787260
  11. D. R. Liu and S. Shekhar, Partitioning Similarity Graphs: A Framework for Declustering Problems: International Journal Information Systems, Vol.21, No.6, pp.475-496, 1996 https://doi.org/10.1016/0306-4379(96)00024-5
  12. S. Prabhakar, K. Abdel-Ghaffar and A. El Abbadi, Cyclic Allocation of Two-Dimensional Data, In Proc. ICDE Conf. pp.94-101, 1998 https://doi.org/10.1109/ICDE.1998.655763
  13. Y. Zhou, S. Shekhar and M. Coyle, Disk Allocation Methods for Parallelizing Grid Files, In Proc. ICDE Conf, pp. 243-252, 1994 https://doi.org/10.1109/ICDE.1994.283037
  14. S. Berchtold, C. B6hm, B. Braunmuller, D. A. Keirn and H.-P. Kriegel, Fast Parallel Similarity Search in Multimedia Databases, In Proc. SIGMOD Conf, pp.1-12, 1997 https://doi.org/10.1145/253262.253263
  15. K. Abdel-Ghaffar and A. E. Abbadi, Optimal Allocation of Two-Dimensional Data, In Proc ICDT Conf, pp.409-418, 1997
  16. Y-L. La, K. A. Hua and H. C. Young. GeMDA: A Multidimensional Data Partitioning Technique for Multiprocessor Database Systems. Distributed and Parallel Databases, Vol.9, No.3, pp.211-236, 2001 https://doi.org/10.1023/A:1019265612794
  17. S. Prabhakar, D. Agrawal and A. E. Abbadi, Disk Allocation for Fast Range and Nearest-Neighbor Queries, Distributed and Parallel Databases, Vol.14, No.2, pp.107-135, 2003 https://doi.org/10.1023/A:1024895525526
  18. C-.M Chen and R. K. Sinha, Analysis and Comparison of Declustering Schemes for Interactive Navigation Queries, IEEE TKDE, Vol.12, No.5, pp.763-778, 2000 https://doi.org/10.1109/69.877507
  19. M. T. Fang, R. C. T. Lee and C. C. Chang, The Idea of De-Clustering and Its Applications, In Proc VLDB Conf. pp.181-I88, 1986
  20. Kamel and C. Faloutsos, Parallel R-trees, In Proc SIGMOD, pp.195-204, 1992 https://doi.org/10.1145/130283.130315
  21. B. Chor, C. E. Leiserson, R. L. Rivest and J. B. Shearer, An Application of Number Theory to the Organization of Raster-Graphics Memory, Journal of ACM, Vol.33, No.1, pp.86-104, 1986 https://doi.org/10.1145/4904.4800
  22. L. T. Chen and D. Rotem, Declustering Objects for Visualization, In Proc VLDB Conf. PP.85-96, 1993
  23. C. Chang, B. Moon, A. Acharya and C. Shock, Titan: a High-Performance Remote-sensing Database, In Proc ICDE Conf. pp.375-384, 1997 https://doi.org/10.1109/ICDE.1997.581883
  24. R. Bhatia, R. K. Sinha and C-M. Chen, Hierachical Declustering Schemes for Range Queries, In Proc EDBT Conf, pp.525-537, 2000
  25. D-R. Liu and M-Y. Wu, A Hypergraph Based Approach to Declustering Problems, Distributed and Parallel Databases, Vol.10, No.3, pp.269-288, 2001 https://doi.org/10.1023/A:1019269409432
  26. T-W. Kim, H-C. Kim and K-J Li, Analyzing the range query performance of two partitioning methods in high-dimensional space, Technical Report, Department of Computer Science, Pusan National University, 2003. http://isel.cs. pusan.ac.kr/paper/pdf/twkim_03_IPL.pdf
  27. S. Berchtold, C. Bohm and H-.P. Kriegel, Improving the Query Performance of High-Dimensional Index Structures by Bulk Loading R-trees, In Proc EDBT Conf, pp.216-230, 1998