DOI QR코드

DOI QR Code

Load Balancing of Unidirectional Dual-link CC-NUMA System Using Dynamic Routing Method

단방향 이중연결 CC-NUMA 시스템의 동적 부하 대응 경로 설정 기법

  • 서효중 (카톨릭대학교 컴퓨터정보공학부)
  • Published : 2005.12.01

Abstract

Throughput and latency of interconnection network are important factors of the performance of multiprocessor systems. The dual-link CC-NUMA architecture using point-to-point unidirectional link is one of the popular structures in high-end commercial systems. In terms of optimal path between nodes, several paths exist with the optimal hop count by its native multi-path structure. Furthermore, transaction latency between nodes is affected by congestion of links on the transaction path. Hence the transaction latency may get worse if the transactions make a hot spot on some links. In this paper, I propose a dynamic transaction routing algorithm that maintains the balanced link utilization with the optimal path length, and I compare the performance with the fixed path method on the dual-link CC-NUMA systems. By the proposed method, the link competition is alleviated by the real-time path selection, and consequently, dynamic transaction algorithm shows a better performance. The program-driven simulation results show $1{\~}10\%$ improved fluctuation of link utilization, $1{\~}3\%$ enhanced acquirement of link, and $1{\~}6\%$ improved system performance.

높은 클럭으로 동작하는 고속의 프로세서를 다수 이용한 다중프로세서 시스템 성능은 프로세서 자체의 성능보다 상호연결망의 트랜잭션 처리 능력 및 지연에 의하여 큰 영향을 받게 된다. 따라서 상호연결망의 성능은 대역폭 및 지연시간 측면으로 시스템 성능에 큰 비중을 차지한다. 단방향 이중 연결을 이용한 CC-NUMA 구조는 이중 연결을 이용한 대역폭 증가효과와 고속 단방향 링크를 이용한 적은 지연시간으로 인하석 고성능 시스템에서 많이 채용되고 있다. 한편, 이중 연결구조로 인하여 시스템의 상호연결망의 최단 경로는 단일하게 형성되지 않으며, 여러 개의 최단 경로가 구성될 수 있다. 그러나 실제 응용프로그램을 수행할 때, 동일한 홉 수를 나타내는 경로일지라 하더라도 각 연결 링크의 부하 및 경쟁에 따른 지연 시간의 차이를 나타내게 되며, 만일 노드간의 트랜잭션 전달 경로가 정적으로 구성되어 있을 경우, 실제 프로그램의 수행에서 균일하지 못한 연결 링크 부하에 따른 지연 시간의 차이가 나타날 수 있음을 의미한다. 이는 곧 고속의 상호연결망 전체의 대역폭을 균일하게 사용하지 못함으로 나타나는 부가적 지연 시간으로 볼 수 있으며, 이로 인한 응용 프로그램의 수행 성능이 저하될 수 있음을 의미한다. 본 논문은 기존 연구된 단방향 이중 연결을 이용한 CC-NUMA 시스템에서, 노드간 트랜잭션 전달 경로가 정 적으로 구성될 경 우 발생될 수 있는 성능 저하를 평가하고, 정적 경로와 동일한 홉 수의 경로를 나타내며 링크 부하에 따라서 동적으로 전달되도록 부하에 따르는 동적 경로 설정 방법을 제시하였다. 논문에서 제시하는 방법은 기존 경로설정 방법에 대하여 동일한 홉 수를 나타내며, 링크 부하에 따라서 동적으로 경로를 설정함으로써 실시간 경로 분배가 자연스럽게 이루어지도록 하였고, 링크 경쟁을 완화함으로써 보다 균일한 링크 사용을 나타냈고, 링크 획득 실패로 인한 지 연시간을 감소시켰다. 프로그램 구동 시뮬레이션을 통한 성능 검증 결과, 논문에서 제시한 동적경로 설정 방법은 기존 정적 경로 설정 방법에 비해 링크점유시간 편차가 $1{\~}10\%$ 낮게 나타났고, 링크의 획득 실패 횟수가 ${\~}3\%$ 감소하였으며, 그 결과 $1{\~}6\%$의 수행 시간 감소를 나타냈다.

Keywords

References

  1. J. Torrellas and V. Krishnan, 'A Chip-Multiprocessor Architecture with Speculative Multithreading,' IEEE Trans. Comp., Sept., 1999 https://doi.org/10.1109/12.795218
  2. S. S. Nemawarkar, R. Govindarajan, G. R. Gao, and V.K. Agarwal 'Performance of Interconnection Network in Multithreaded Architectures,' Lecture Notes in Computer Science, Vol.817, pp.823-826, 1994
  3. Daniel Lenoski, James Laudon, Kourosh Gharachorloo, Wolf-Dietrich Weber, Anoop Gupta, John Hennessy, Mark Horowitz, and Monica S. Lam, 'The Stanford Dash multiprocessor,' IEEE Trans. Comp., Vol.25 No.3, pp.63-79, Mar., 1992 https://doi.org/10.1109/2.121510
  4. IEEE Computer Society, IEEE Standard for Scalable Coherent Interface(SCI), Institute of Electrical and Electronics Engineers, Aug., 1993
  5. Tom Lovett and Russel Clapp, 'STiNG: A CC-NUMA Computer System for the Commercial Marketplace,' Proc. of the 23th International Symp, on Computer Architecture, pp. 308-317, May, 1996 https://doi.org/10.1109/ISCA.1996.10001
  6. P.Mak, G.E.Strait, M.A.Blake, K.W.Kark, V.K.Papazova, A.E.Seigler, G.A.Van Huben, L.Wang, and G.C.Wellwood, 'Processor subsystem interconnect architecture for a large symmetric multiprocessor system,' IBM Journal, Vol.48. No.3/4, May/July, 2004 https://doi.org/10.1147/rd.483.0323
  7. http://www.dg.com/
  8. http://panda.snu.ac.kr/nrl/
  9. Hyo-Joong Suh, Sung Woo Chung, 'DRACO: Optimized CC-NUMA system with Novel Dual-Link Interconnections to Reduce the Memory Latency,' Proc. MEDIA-2004 Workshop, July, 2004
  10. 서효중, '건너뜀 이중링크를 갖는 고확장성 CC- NUMA시스템', 한국정보과학회논문지A, Vol.31 , No.9, pp.487-494, 2004. 10
  11. 서효중, '다중 프로그램 환경에 적합한 이중 연결 CC-NUMA시스템', 한국정보처리학회논문지A, Vol.11, No.3, pp.321-328, 2004. 06
  12. L. Barroso and M. Dubois, 'The Performance of CacheCoherent Ring-based Multiprocessors,' Proc. of the 20th International Symp, on Computer Architecture, pp.268-277, May, 1993
  13. A-T. Nguyen, M. Michael, A. Sharma, and J. Torrellaz, 'The Augmint multiprocessor simulation toolkit for Intel x86 architecture,' Proc. of the IEEE Conf. Computer Design, Oct., 1996
  14. S.C.Woo, M.Ohara, E.Torrie, J.P.Singh, and A.Gupta. 'Methodological considerations and characterization of the SPLASH-2 parallel application suite,' Proc. International Symp. on Computer Architecture, pp.24-36, 1995