DOI QR코드

DOI QR Code

Skewed Data Handling Technique Using an Enhanced Spatial Hash Join Algorithm

개선된 공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법

  • 심영복 (충북대학교 대학원 컴퓨터교육과) ;
  • 이종연 (충북대학교 컴퓨터교육과)
  • Published : 2005.04.01

Abstract

Much research for spatial join has been extensively studied over the last decade. In this paper, we focus on the filtering step of candidate objects for spatial join operations on the input tables that none of the inputs is indexed. In this case, many algorithms has presented and showed excellent performance over most spatial data. However, if data sets of input table for the spatial join ale skewed, the join performance is dramatically degraded. Also, little research on solving the problem in the presence of skewed data has been attempted. Therefore, we propose a spatial hash strip join (SHSJ) algorithm that combines properties of the existing spatial hash join (SHJ) algorithm based on spatial partition for input data set's distribution and SSSJ algorithm. Finally, in order to show SHSJ the outperform in uniform/skew cases, we experiment SHSJ using the Tiger/line data sets and compare it with the SHJ algorithm.

지난 수년 동안 공간 데이터의 조인 연산에 대한 많은 연구가 진행되어 왔다. 본 논문에서는 공간 조인연산 시 인덱스가 존재하지 않을 경우, 후보 객체의 여과 단계 처리에 중점을 둔다. 이 분야에 대한 여러 알고리즘들이 제안되었으며 대부분의 경우 공간 데이터의 조인 연산 시 우수한 성능을 나타내고 있다. 하지만, 조인을 위한 입력 테이블의 객체들이 편중되어 분포할 경우 조인 성능이 급격히 저하되는 문제점을 가지고 있으며 이 문제를 해결하려는 연구는 미흡한 실정이다. 따라서, 본 논문에서는 공간 데이터의 편중 문제를 개선하기 위해 기존의 공간 조인 알고리즘 중 Spatial Hash Join 알고리즘과 SSSJ 알고리즘의 장점을 결합한 Spatial Hash Sip Join 알고리즘을 제안한다. 이 알고리즘을 SHJ 알고리즘의 객체 분포에 기반한 공간 분할 특성과 공간 조인 시 SSSJ 알고리즘의 우수한 I/O 특성을 이용한다. 본 논문에서 제안한 SHSJ 알고리즘의 성능 평가를 위해 Tiger/line 데이터를 사용하여 기존 SHJ 알고리즘과 성능을 비교 평가 하였으며 평가 결과 인덱스가 존재하지 않는 입력 테이블에 대한 공간 조인 연산 시 모든 평가 파라미터에 대해 기존의 SHJ 알고리즘보다 우수함이 검증되었다.

Keywords

References

  1. J.A. Orenstein, 'Redundancy in Spatial Databases,' In Proceeding of ACM SIGMOD International Conference on Management of Data, pp.294-305, June, 1989 https://doi.org/10.1145/67544.66954
  2. M. L. La and C. V. Ravishankar, 'Spatial Hash-Joins,' In Proceedings of ACM SIGMOD International Conference on Management of Data, pp.209-220, May, 1996
  3. L. Arge, O. Procopiuc, S. Ramaswami, T. Suel, and J Vitter, 'Scalable Sweeping Based Spatial Join,' In Proceedings of International Conference on Very Large Data Bases, pp.570-581, Aug., 1998
  4. U. S, Bureau of the Census, '2002 Tiger/line Files,' 2002
  5. A. Guttman, 'R-Trees: A Dynamic Index Structure for Spatial Searching,' In Proceedings of ACM SIGMOD International Conference on Management of Data, pp.47-57, Jun., 1984 https://doi.org/10.1145/602259.602266
  6. L. Becker, K. Hinrichs, and U. Finke, 'A New Algorithm for Computing of Spatial Joins Using R-trees,' In Proceedings of the Ninth International Conference on Data Engineering, pp.190-197, Vienna, Austria, Apr., 1993
  7. T. Brinkhoff, H. Kriegel, R. Schneider, and B. Seeger, 'Multi-Step Processing of Spatial Joins,' In Proceedings of ACM SIGMOD International Conference on Management of Data, pp.197-208, Jun., 1994 https://doi.org/10.1145/191839.191880
  8. R. Elmasri and S. B. Navathe, Fundamental of Database systems, 3rd edition, Addison-Wesley Publishers, pp.594-600, 2000
  9. M. L. Lo and C. V. Ravishankar, 'Spatial joins using seeded trees,' In Proceedings of ACM SIGMOD International Conference on Management of Data, Minneapolis, MN, pp. 209-220, May, 1994 https://doi.org/10.1145/191839.191881
  10. M. L. Lo and C. V. Ravishankar, 'Generating seeded trees from data sets,' In the Fourth International Symposium on Large Spatial Databases (Advances in Spatial Databases:SSD '95), Portland, Maine, pp.328-347, Aug., 1995
  11. N. Mamoulis and D. Papadias, 'Slot Index Spatial Join' IEEE Transactions on Knowledge and Data Engineering, Vol.15, No.1, Jan/Feb., 2003 https://doi.org/10.1109/TKDE.2003.1161591
  12. M. L. Lo and C. V. Ravishankar, 'The Design and Implementation of Seeded Trees: An Efficient Method for Spatial Joins,' IEEE Transactions on Knowledge and Data Engineering, Vo1.10, No.1, pp.136-151, 1998 https://doi.org/10.1109/69.667097
  13. J. M. Patel and D. J. DeWitt, 'Partition Based Spatial-Merge Join,' In Proceedings of ACM SIGMOD International Conference on Management of Data, pp.259-270, Jun., 1996 https://doi.org/10.1145/233269.233338
  14. N. Koudas and K. Sevcik, 'Size Separation Spatial Join,' In Proceedings of ACM SIGMOD International Conference Management of Data, pp.324-335, May, 1997 https://doi.org/10.1145/253260.253340
  15. R. H. Buting and W. Schilling, 'A Practical Divide-and-Conquer Algorithm for the Rectangle Intersection Problem,' Information Sciences, Vol.42, No.2, pp.95-112, July, 1987 https://doi.org/10.1016/0020-0255(87)90018-1
  16. S. T. Leutenegger, J. Edgington, and M. A. Lopez, 'STR: A Simple and Efficient Algorithm for R-Tree Packing,' In Proceedings of International Conference on Data Engineering, pp.497-506, Apr., 1997 https://doi.org/10.1109/ICDE.1997.582015