DOI QR코드

DOI QR Code

A Data Generator for Database Benchmarks and its Performance Evaluation

데이터베이스 벤치마크를 위한 데이터 생성기와 성능 평가

  • 옥은택 (숭실대학교 대학원 컴퓨터학과) ;
  • 정회진 (숭실대학교 대학원 컴퓨터학과) ;
  • 이상호 (숭실대학교 컴퓨터학부)
  • Published : 2003.10.01

Abstract

Database benchmarks require efficient of large-scale data. This presents the system architecture, control flows, and characteristics of the data generator we have developed. The data generator features generation of large-scale data, column-by-column data generation, a number of data distributions and verification, and real data generation. An extensive conparison with other data generators in terms of function is also presented. Finally, empirical performance experiments between RAID systems and non-RAID one have been conducted to alleviate I/O bottleneck. The test results can serve as guidelines to help confifure system architecture.

데이터베이스 벤치마크는 많은 양의 데이터에 대한 효과적 생성을 요구한다. 본 논문은 개발된 데이터 생성기의 시스템 구성도, 데이터 생성 동작, 특성을 기술한다. 본 데이터 생성기 특성은 대용량 데이터 생성 지원, 칼럼 단위 데이터 생성, 다양항 데이터 분포 지원 및 검증, 실데이터 생성 등이다. 또한 타 데이터 생성기들과 기능 관점에서 비교하였다. 마지막으로 대용량 데이터 생성시의 입출력 병목현상 해결을 위해 RAID 시스템과 비 RAID 시스템간의 성능을 실험적으로 비교하였으며, 실험 결과에 근거하여 시스템 구성 가이드를 제시한다.

Keywords

References

  1. J. Gray, P. Sundaresan, S. Englert, K. Baclawski and P. Weinberger, 'Quickly Generating Billion-Record Synthetic Databases,' Proceedings of the 1994 ACM SIGMOD International Conference on Management of Data, pp.233-242, 1994 https://doi.org/10.1145/191839.191886
  2. D. Knuth, 'The Art of Computer Programming,' 2nd Ed., Addison Wesley, 1981
  3. Datatect, Banner Software Inc, http://www.datatect.com/
  4. DataFactory, Quest Software Inc, http://www.quest.com/datafactory/
  5. TurboData, Canam Software Inc, http://www.turbodata.ca/
  6. DatGen, http://www.datasetgeneratorcom/
  7. M. Y. Kim, 'Synchronized Disk Interleaving,' IEEE Transactions on Computers, Vol.3, No.11, pp.978-988, 1986
  8. D. A. Patterson, G. Gibson and R. H. Katz, 'A case for redundant arrays of inexpensive disks (RAID),' Proceedings of the 1988 ACM SIGMOD International Conference on Management of Data, pp.l09-116, 1988 https://doi.org/10.1145/50202.50214
  9. P. Chen and D. Patterson, 'Maximizing Performance in a Striped Disk Array,' Proceedings of the 1990 ACM SIGARCH International Conference on Computer Architecture, pp.322-331, 1990 https://doi.org/10.1145/325164.325158
  10. P. M. Chen and E. K. Lee, 'Striping in a RAID Level 5 Disk Array,' Proceedings of the 1995 ACM SIGMETRICS Joint International Conference on Measurement and Modeling of Computer Systems, pp.l36-145, 1995 https://doi.org/10.1145/223587.223603
  11. G. Weikum and P. Zabback, 'Tuning of Striping Units in Disk-Array-Based File Systems,' Proceedings of the 2nd International Workshop on Research Issues on Data Engineering : Transaction and Query Processing, pp.80-87, 1992
  12. 전상훈, 안병철, '실시간 멀티미디어 데이터를 위한 RAID 구조의 실측 분석'정보처리학회논문지, 제9권 제2호, pp.191-199, 2002
  13. TPC Home Page, http://www.tpc.org
  14. D. DeWitt, 'The Wisconsin Benchmark: Past, Present, and Future,' The Benchmark Handbook, 2nd Ed., J. Gray Ed., Morgan Kaufmann, pp.269-316, 1993
  15. P. O'Neil, 'The Set Query Benchmark,' The Benchmark Handbook, 2nd Ed., J. Gray Ed., Morgan Kaufmann, pp. 359- 396, 1993
  16. C. Turbyfill, C. Orji, and D. Bitton, '$AS^{3}AP$ : An ANSI SQL Standard Scaleable and Portable Benchmark for Relational Database Systems,' The Benchmark Handbook, 2nd Ed., J. Gray Ed., Morgan Kaufmann, pp.317-358, 1993
  17. 강근석, 김성철, 김지현, 이윤오, 이정진, 이창수, '디스켓이 들어 있는 PC 통계학', 자유 아카데미, 1993
  18. H.J. Jeong and S. H. Lee, 'An Integrated Benchmark Suite for Database Systems,' Proceedings of the IASTED International Conference on Information Systems and Databases, pp.74-79, 2002