DOI QR코드

DOI QR Code

Efficient Computation of Stream Cubes Using AVL Trees

AVL 트리를 사용한 효율적인 스트림 큐브 계산

  • 김지현 (이화여자대학교 컴퓨터학과) ;
  • 김명 (이화여자대학교 컴퓨터학과)
  • Published : 2007.10.31

Abstract

Stream data is a continuous flow of information that mostly arrives as the form of an infinite rapid stream. Recently researchers show a great deal of interests in analyzing such data to obtain value added information. Here, we propose an efficient cube computation algorithm for multidimensional analysis of stream data. The fact that stream data arrives in an unsorted fashion and aggregation results can only be obtained after the last data item has been read. cube computation requires a tremendous amount of memory. In order to resolve such difficulties, we compute user selected aggregation fables only, and use a combination of an way and AVL trees as a temporary storage for aggregation tables. The proposed cube computation algorithm works even when main memory is not large enough to store all the aggregation tables during the computation. We showed that the proposed algorithm is practically fast enough by theoretical analysis and performance evaluation.

스트림 데이터는 끊임없이 고속으로 생성되는 데이터로써 최근 이러한 데이터를 분석하여 부가가치를 얻고자 하는 노력이 활발히 진행 중 이다. 본 연구에서는 스트림 데이터의 다차원적 분석을 위해 큐브를 고속으로 계산하는 방법을 제안한다. 스트림 데이터는 비즈니스 데이터와는 달리 정렬되지 않은 채로 도착하며, 데이터의 끝에 도달하지 않은 상태에서는 집계 결과를 낼 수 없어서, 고속으로 집계하는 과정에서 저장 공간의 낭비를 심하게 초래한다. 또한 큐브에 속한 집계 테이블들을 모두 생성하는 것은 시간/공간 측면에서 비효율적이라는 점이 지적되고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 기존 연구들과 마찬가지로 큐브에 포함시킬 집계 테이블들을 사용자가 미리 정하도록 하였고, 정렬되지 않은 스트림 데이터를 고속으로 집계하는 과정에서 배열과 AVL 트리들로 구성된 자료구조를 집계 테이블의 임시 저장소로 사용하였다. 제안한 알고리즘은 생성하려는 큐브가 메모리에 상주할 수 없을 정도로 큰 경우에도 집계 연산을 수행할 수 있다. 이론적 분석과 성능 평가를 통해 제안한 큐브 계산 알고리즘이 실용적임을 입증하였다.

Keywords

References

  1. B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom. 'Models and Issues in Data Streams,' In Proc. ACM Symp. on Principles of Database Systems, pp.1-16, June 2002 https://doi.org/10.1145/543613.543615
  2. Stanford Stream Data Management (STREAM) Project. http://www-db.stanford.edu! stream
  3. S. Babu and J. Widom 'Continuous Queries Over Data Streams,' In Proc. ACM SIGMOD Record, Vol.30, pp.109-120, 2001 https://doi.org/10.1145/603867.603884
  4. D. J. Abadi, D. Carney, U. Cetintemel, M. Cherniack, C. Convey, S. Lee, M. Stonebracker, N. Tatbul, and S. Zdonik. 'Aurora: a new model and architecture for data stream management,' The VLDB Journal, Vol.12, pp.120-139, 2003 https://doi.org/10.1007/s00778-003-0095-z
  5. C. Cranor, T. Johnson, O. Spatscheck, and V. Shkapenyuk, 'Gigascope: A stream database for network applications,' In Proc. ACM SIGMOD, pp.647-651, 2003 https://doi.org/10.1145/872757.872838
  6. S. Agarwal, R. Agrawal, P. M. Deshpande, A. Gupta, J. F. Naughton, R. Ramacrishnan, S. Sarawagi, 'On the Computation of Multidimensional Aggregates,' In Proc. cf the 22nd VLDB Conference, pp.506-521, 1996
  7. B. J. Han, Y. Chen, G. Dong, J. Pei, B. W. Wah, J Wang, Y. D. Cai, 'Stream Cube: An Architecture for Multi-Dimensional Analysis of Data Streams,' Distributed and Parallel Databases, Vol.18, pp,173-197, 2005 https://doi.org/10.1007/s10619-005-3296-1
  8. R. Zhang, N. Koudas, B. C.Ook, D. Srivastava, 'Multiple Aggregations Over Data Streams,' In Proc. ACM SIGMOD, pp.299-310, 2005 https://doi.org/10.1145/1066157.1066192
  9. Y. Sismanis, A. Deligiannakis, N. Roussopoulous, Y. Kotidis, 'Dwarf: Shrinking the PetaCube,' In Proc. ACM SIGMOD, pp.464-475, 2002
  10. 김명, 송지숙, '효율적인 큐브 생성 방법,' 한국정보과학회 논문지(데이터베이스), 제29권 2호, pp.99-109, 2002
  11. M. Datar, A. Gionis, P. Indyk, and R. Motwani. 'Maintaining stream statistics over sliding windows,' In Proc. of the 2002 Annual ACM-SIAM Symposium on Discrete Algorithms, pp.635-644, 2002
  12. S. Guha and N. Koudas, and K. Shim. 'Data-streams and histograms,' In Proc. of the 2001 Annual ACM Symposium on Theory of Computing, pp.471-475, 2001 https://doi.org/10.1145/380752.380841
  13. Y. Zhao, P. Deshpande, and J. Naughton, 'An Array-Based Algorithm for Simultaneous Multidimensional Aggregates,' In Proc. ACM SIGMOD, pp,159-170, 1997