DOI QR코드

DOI QR Code

Block Histogram Compression Method for Selectivity Estimation in High-dimensions

고차원에서 선택율 추정을 위한 블록 히스토그램 압축방법

  • 이주홍 (인하대학교 컴퓨터공학부) ;
  • 전석주 (안산1대학 인터넷정보과) ;
  • 박선 (인하대학교 대학원 전자계산공학과)
  • Published : 2003.10.01

Abstract

Database query optimates the selectivety of a query to find the most efficient access plan. Multi-dimensional selectivity estimation technique is required for a query with multiple attributes because the attributes are not independent each other. Histogram is practically used in most commercial database products because it approximates data distributions with small overhead and small error rates. However, histogram is inadequate for a query with multiple attributes because it incurs high storage overhead and high error rates. In this paper, we propose a novel method for multi-dimentional selectivity estimation. Compressed information from a large number of small-sized histogram buckets is maintained using the discrete cosine transform. This enables low error rates and low storage overheads even in high dimensions. Extensive experimental results show adventages of the proposed approach.

데이터베이스 질의 최적화기는 가장 효율적인 실행계획을 구하기 위해서 질의의 선택율을 추정한다. 일반적으로 애트리뷰트들은 서로 독립적이지 않기 때문에 여러 개의 애트리뷰트를 가지는 질의에 대해서는 다차원 선택을 추정 기법이 필요하다. 대부분의 상용 데이터베이스에서는 히스토그램이 계산 오버헤드가 많지 않고 작은 에러율로 데이터 분포를 를 근사 시킬 수 있기 때문에 실용적으로 많이 사용되고 있다. 그러나 여러 개의 애트리뷰트를 가진 다차원 지?l의 경우에서는 차원이 높아 질수록 에러율을 낮추기 위해 많은 저장 공간을 필요로 하기 때문에 히스토크램 방법이 적합하지 않다. 이 논문에서는 다차원 선택을 추정을 위한 새로운 기법을 제안한다. 다차원 공간에서 크기가 작은 히스토그램 버켓을 많이 만들고 이 버켓의 정보를 DCT로 압축하여 선택을 추정에 사용함으로써 에러율을 작게 하고 저장 공간의 사용량도 줄인다. 폭 넓은 실험 결과는 본 논문에서 제시한 방법들의 타당성과 이점을 확인시켜 준다.

Keywords

References

  1. A. Belussi, C. Faloutsos, 'Estimating the Selectivity of Spatial Queries Using the 'Correlation' Fractal Dimension,' 21th VLDB Conference, 1995
  2. C. Chen. N. Roussopoulos. 'Adaptive Selectivity Estimation Using Query Feedback,' ACM SIGMOD Conference, pp. 161-172, 1994 https://doi.org/10.1145/191839.191874
  3. W. Chang, G. Sheikholeslami. A Zhang, T. Syeda-Mah mood, 'Efficient Resource Selection in Distributed Visual Information Systems,' ACM Multimedia Conference, pp. 203-213, 1997 https://doi.org/10.1145/266180.266367
  4. S. Chaudhuri, L. Gravano, 'Optimizing Queries over Multimedia Repositories,' ACM SIGMOD Corference pp.91-102, 1996
  5. S. Christodoulakis, 'Estimating record selectivities,' Information Systems Journal, Vol.8, No.2, pp105-115, 1983 https://doi.org/10.1016/0306-4379(83)90035-2
  6. P. J. Haas, J. F. Naughton, S. Seshadri and L. Stokes, 'Sampling based estimation of the number of distinct values of an attribute,' 21th VLDB Corference, 1995
  7. Y. Ioannidis, 'Universality of Serial Histograms,' 19th VLDB Conference, pp.256-267, 1993
  8. Y. Ioannidis, V. Poosala, 'Balancing Optimality and Practicality for Query Result Size Estimation,' ACM SIGMOD Conference, pp.233-244, 1995
  9. H. Jagadish, N. Kouda, S. Muthukrishnan, V. Poosala, K. Sevcik, T. Suel, 'Optimal Histograms with Quality Guran tees,' 24th VLDB Conference, pp.275-286, 1998
  10. J S. Lim, 'Two Dimensional Signal And Image Processing,' Prentice Hall, 1990
  11. Vitter, J S., Wang, M. and Iyer, B., 'Data Cube Approximate and Histograms via Wavelets,' In Proceedings of seventh International Conference on Information and Knowledge Management, ACM Press, Washington D.C., pp. 96-104, 1998 https://doi.org/10.1145/288627.288645
  12. M. V. Mannino, P. Chu and T. Sager, 'Statistical profile estimation in database systems,' ACM Computing Surveys, Vol.20, No.3, 1988 https://doi.org/10.1145/62061.62063
  13. V. Poosala, Y. E. Ioannidis, p. J Haas, E. J. Shekita, 'Improved Histograms for Selectivity Estimation of Range Predicates,' ACM SIGMOD Corference, pp.294-305, 1996 https://doi.org/10.1145/233269.233342
  14. V. Poosala, Y. E. Ioannidis, 'Selectivity Estimation Without the Attribute Value Independence Assumption,' 23th VLDB Conference, pp.486-495, 1997
  15. K. R. Rao, P. Yip, 'Discrete Cosine Transform Algorithms, Advantages, Applications,' Academic Press, 1990
  16. Shanmugasundaram, J, Fayyad, U. and Bradley, P. S., 'Compressed Data Cubes for OLAF Aggregate Query Approximation on Continuous Dimensions,' In the procee dings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego, pp.223-232, 1999
  17. W. Sun, Y. Ling, N. Rishe and Y. Deng, 'An Instant and accurate size estimation method for joins and selections in a retrieval-intensive environment,' ACW SIGMOD Conference, 1993 https://doi.org/10.1145/170035.170055