DOI QR코드

DOI QR Code

The Design of MPI Hardware Unit for Enhanced Broadcast Communication

효율적인 브로드캐스트 통신을 지원하는 MPI 하드웨어 유닛 설계

  • 윤희준 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 정원영 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 이용석 (연세대학교 전기전자공학과 프로세서 연구실)
  • Received : 2011.10.28
  • Published : 2011.11.30

Abstract

This paper proposes an algorithm and hardware architecture for a broadcast communication which has the worst bottleneck among multiprocessor using distributed memory architectures. In conventional systems, collective communication is converted into point-to-point communications by MPI library cell without considering the state of communication port of each processing node which represents the processing node is in busy state or free state. If conflicting point-to-point communication occurs during broadcast communication, the transmitting speed for broadcast communication is decreased. Thus, this paper proposed an algorithm which determines the order of point-to-point communications for broadcast communication according to the state of each processing node. According to the state of each processing node, the proposed algorithm decreases total broadcast communication time by transmitting message preferentially to the processing node with communication port in free state. The proposed MPI unit for broadcast communication is evaluated by modeling it with systemC. In addition, it achieved a highly improved performance for broadcast communication up to 78% with 16 nodes. This result shows the proposed algorithm is useful to improving total performance of MPSoC.

본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템에서 집합통신은 프로세싱 노드의 통신포트 상태가 busy 혹은 free 인지를 고려하지 않고 MPI libray cell 에 의해서 점대점 통신으로 변환되어 진다. 만약 브로드캐스트 통신을 하는 동안에 간섭하는 점대점 통신이 있다면, 브로드캐스트 통신의 전송 속도는 저하된다. 따라서 본 논문에서는 각각의 프로세싱 노드의 상태를 고려하여 통신 순서를 결정하는 브로드캐스트 통신 알고리즘을 제안하였다. 제안하는 구조의 알고리즘은 각 프로세싱 노드의 상태에 따라, free 상태의 통신 포트를 가진 프로세싱 노드의 통신 포트에게 우선적으로 메시지를 송신하여 전체적인 집합통신 시간을 단축하였다. 본 연구에서 제안하는 브로드캐스트 통신을 위한 MPI 유닛은 SystemC로 모델링하여 평가하였다. 또한 본 구조는 16노드에서 브로드캐스트 통신의 성능을 최대 78% 향상시켰고, 이는 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

Keywords

References

  1. A. C. K1aiber, H. M. Levy, "A comparison of message passing and shared memory architectures for data parallel programs," Proceedings of the 21st annual international symposium on Computer architecture, Vol 22, pp 94-105, April 1994 https://doi.org/10.1145/192007.192020
  2. P. Stenstrom, "A Survey of Cache Coherence Schemes for Multiprocessors," Computer, Vol.23, pp. 12-24, June 1990.
  3. L. Benini and G.de Micheli, " Networks On Chip: A New SoC Paradigm," IEEE Computer, Vol 35, No. 1, Jan. 2002, pp. 70-78 . https://doi.org/10.1109/2.976921
  4. Daniel L. Ly, Manuel Saldana, Paul Chow, "the Challenges of Using An Embedded MPI for Hardware-based Processing Nodes," Field-Programmable Technology(FPT) 2009, Sydney, NSW, Dec. 2009, pp. 120-127.
  5. T. P. McMahon and A. Skjellum, "eMPI/eMPICH: Embedding MPI," MPI Developers Conference, 1996, pp. 180-184 .
  6. R. Rabenseifner, "Automatic MPI counter profiling of all users: First results on a CRA Y T3E 900-512," Proceedings of the Message Passing Interface Developer's and User's Conference 1999(MPIDC99), 1999, pp.77-85.
  7. S. S. Vadhiyar, G. E. Fagg, and J. Dongarra. "Automatically Tuned Collective Communications," In Proceedings of SC'00: High Performance Networking and Computing, 2000.
  8. Mike Barnett, Satya Gupta, David G. Payne, Lance Shuler, and Robert van de Geijn, "Building a High-Performance Collective Communication Library," Supercomputing '94, Nov. 1994, pp. 107-116.
  9. Thakur, Rajeev, et aI., "Optimization of collective communication operations in mpich," International Journal of High Perfonnance Computing Applications, Feb. 2005, pp. 49 - 66.
  10. Poletti Francesco, Poggiali Antonio, and Paul Marchal, "Flexible hardware/software support for message passing on a distributed shared memory architecture," Design, Automation and Test in Europe 2005, March 2005, Vol. 2, pp. 736-741.
  11. 정하영,정원영,이용석, "MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계," 한국통신학회지, 제36권, 제1호, pp. 86-92, 2011.