A Highly Scalable CC-NUMA System with Skipped Dual Links

건너뜀 이중링크를 갖는 고확장성 CC-NUMA 시스템

  • 서효중 (가톨릭대학교 컴퓨터정보공학부)
  • Published : 2004.10.01

Abstract

The multiprocessor system suffers interconnection network contension while exploiting the program's parallelism. A CC-NUMA system based on point-to-point link ring structure is one of the scalable architectures that expand the system bandwidth the number of processors/nodes increases. The dual-ring system is a simple solution to enhance the system performance and scalability by duplicating the links. In ring-based systems, an unbalanced transaction among links makes a hot spot on the interconnection network. In this situation, total system performance and scalability are bound by the hot spot of the links In this paper, I propose a dual-link CC-NUMA system, which alleviates the concentration of transactions among the links. By the simulation results, the proposed system significantly outperforms the single-ring and bidirection dual-ring systems. In addition, the proposed system show better distribution of transactions among the links that achieves an extended scalability.

다중 프로세서 시스템을 구성하기 위하여 점유가 발생하는 버스를 채용한 이래로, 상호연결망의 병목현상을 개선하기 위한 노력은 점대점 연결을 이용한 링 구조까지 발전되어 왔다. 상호연결망의 병목 현상은 다중 프로세서 시스템이 프로세서 수에 따른 선형적 성능 개선을 나타내지 못하게 하는 주요 제한 요소로 작용하였으며, 이러한 병목 현상을 개선하기 위한 상호연결망 구성 방법이 다수 연구되어 왔다. 본 논문은 현재 활발히 채용되고 있는 두 개의 점대점 연결을 이용한 링 구조에서 일정 규칙에 기반한 건너뜀 연결을 갖도록 개선하고 트랜잭션의 전송 경로를 정적 알고리즘으로 구현하여, 이중 링크를 가지는 CC-NUMA 시스템의 부하를 균일하게 분배시킴으로써 시스템의 성능과 확장성을 개선시켰다. 실험 결과에 의하면 단일 링크를 이용한 링 구조의 경우, 프로그램의 부하가 커질수록 프로세서의 추가에 따른 특정 링크의 병목 현상이 발생하였고, 시스템의 성능이 저하되었다. 본 논문에서 제시된 건너뜀 연결 구조의 경우, 동일한 대역폭을 가진 반대 방향 이중 링 구조에 비하여 높은 성능과 균등한 부하 분배에 의한 개선된 확장성을 얻을 수 있었고, 반대 방향 이중 링의 경우에 발견되는 부하 편차를 크게 줄일 수 있었다.

Keywords

References

  1. John L. Hennessy, David A. Patterson, David Goldberg, Computer Architecture: A Quantitative Approach, 2nd Ed., Morgan Kaufmann 15 May 2002
  2. IEEE Computer Society, IEEE Standard for Scalable Coherent Interface(SCI), Institute of Electrical and Electronics Engineers, Aug. 1993
  3. Tom Lovett and Russel Clapp, 'STiNG : A CCNUMA Computer System for the Commercial Marketplace,' Proc. of the 23th Int. Symp. on Computer Architecture, pp. 308-317, May 1996
  4. H. Oi and N. Ranganathan, 'Performance Analysis of the Bidirectional Ring-Based Multiprocessor,' Proc. of ISCA 10th Int. Conf. on Parallel and Distributed Computing Systems, pp. 397-400, October 1997
  5. Daniel Lenoski, James Laudon, Kourosh Gharachorloo, Wolf-Dietrich Weber, Anoop Gupta, John Hennessy, Mark Horowitz, and Monica S. Lam, 'The Stanford Dash multiprocessor,' Computer, Vol. 25 No.3, pp. 63-79, Mar. 1992 https://doi.org/10.1109/2.121510
  6. A Saulsbury, T. Wilkinson, J B. Carter, and A Landin, 'An Argument for Simple COMA,' Proc. of the 1st IEEE Symp, on High-Performance Computer Architecture, pp. 276-285, 1995 https://doi.org/10.1109/HPCA.1995.386535
  7. L. Barroso and M. Dubois, 'The Performance of Cache-Coherent Ring-based Multiprocessors,' Proc. of the 20th Int. Symp, on Computer Architecture, pp. 268-277, May 1993 https://doi.org/10.1145/173682.165162
  8. http://www.dg.com/
  9. http//panda.snu.ac.kr/nrl/
  10. A-T. Nguyen, M. Michael, A. Sharma, and J. Torrellaz, 'The Augmint multiprocessor simulation toolkit for Intel x86 architecture,' Proc. of the IEEE Int. Conf. on Computer Design, Oct. 1996 https://doi.org/10.1109/ICCD.1996.563597
  11. S.C.Woo, M.Ohara, E.Torrie, J.P.Singh, and A.Gupta. 'Methodological considerations and characterization of the SPLASH-2 parallel application suite,' Proc. of the 22th Int. Symp. on Computer Architecture, pp. 24-36, 1995