DOI QR코드

DOI QR Code

대규모 분산 컴퓨팅 환경에서 확장성을 고려한 실시간 데이터 공급 기법

Scalable Data Provisioning Scheme on Large-Scale Distributed Computing Environment

  • 김병상 (한국과학기술원 정보통신공학과) ;
  • 윤찬현 (한국과학기술원 전자및전기공학과)
  • 투고 : 2011.02.18
  • 심사 : 2011.03.04
  • 발행 : 2011.08.31

초록

본 논문은 원격지간의 연결된 대규모 분산 환경에서 데이터 분석 작업의 실행을 위해 필수적으로 고려되는 데이터 전송 부하를 감소시키는 기법을 제안한다. 계산 노드들이 밀집된 지역 인근에 다수의 데이터 노드를 배치시킴으로서 계산 노드들이 단일 데이터센터가 아닌 자신과 인접한 데이터 노드에 접근하여 작업을 수행함으로서 전송부하를 감소시키고 확장성을 증가시키는 것이 가능하다. 따라서 본 논문은 지역적으로 분산된 데이터 노드들의 데이터 처리율을 기반으로 실시간 데이터 공급을 수행함으로서 전송 지연을 최소화 할 수 있는 이론적인 모델과 시뮬레이션을 통한 성능 평가를 수행한다. 제안된 기법은 PRAGMA 그리드 테스트베드에서 실험을 통하여 성능의 우수성을 검증하였다.

As the global grid has grown in size, large-scale distributed data analysis schemes have gained momentum. Over the last few years, a number of methods have been introduced for allocating data intensive tasks across distributed and heterogeneous computing platforms. However, these approaches have a limited potential for scaling up computing nodes so that they can serve more tasks simultaneously. This paper tackles the scalability and communication delay for computing nodes. We propose a distributed data node for storing and allocating the data. This paper also provides data provisioning method based on the steady states for minimizing the communication delay between the data source and the computing nodes. The experimental results show that scalability and communication delay can be achieved in our system.

키워드

참고문헌

  1. J. Andreeva, S. Campana, F. Fanzago, and J. Herrala, ``High-Energy Physics on the Grid: the ATLAS and CMS Experience,'' Journal of Grid Computing, Vol.6, No.1, pp.3-13, Mar., 2008. https://doi.org/10.1007/s10723-007-9087-3
  2. Y. Asim and J. J. Dongarra, ``Biological sequence alignment on the computational grid using the GrADS framework,'' Future Generation Computer Systems, Vol.21, No.6, pp.980-986, June, 2005. https://doi.org/10.1016/j.future.2005.02.002
  3. P. Luo, K. Lu , Z. Shi , and Q. He, ``Distributed Data Mining in Grid Computing Environments,'' Future Generation Computer Systems, Vol.23, No.1, pp.84-91, Jan., 2007. https://doi.org/10.1016/j.future.2006.04.010
  4. C. Banino, O. Beaumont, L. Carter, J. Ferrante, A. Legrand, and Y. Robert, ``Scheduling Strategies for Master-Slave Tasking on Heterogeneous Processor Platforms,'' IEEE Trans. Parallel Distributed Systems, Vol.15, No.4, pp.319-330, 2004. https://doi.org/10.1109/TPDS.2004.1271181
  5. Moscicki and T. Jakub, ``DIANE - Distributed analysis environment for GRID-enabled simulation and analysis of physics data,'' Proc. IEEE Nuclear Science Symposium Conference Record, Vol.3, pp.1617-1620, 2003. https://doi.org/10.1109/NSSMIC.2003.1352187
  6. https://twiki.cern.ch/twiki/bin/view/Atlas/PanDA
  7. David R. Cox, et.al, "The theory of stochastic processes" Chapman & Hall/CRC, 2001.
  8. The SimJava Tutorial, http://www.dcs.ed.ac.uk/home/hase/simjava/
  9. Pacific Rim Applications and Grid Middleware Assemply, http://www.pragma-grid.net/