Fault-Tolerant Adaptive Routing : Improved RIFP by using SCP in Mesh Multicomputers

적응적 오류 허용 라우팅 : SCP를 이용한 메쉬 구조에서의 RIFP 기법 개선

  • Published : 2003.12.01

Abstract

Adaptive routing methods are studied for effective routing in many topologies where occurrence of the faulty nodes are inevitable. Mesh topology provides simplicity in implementing these methods. Many routing methods for mesh are able to tolerate a large number of faults enclosed by a rectangular faulty block. But they consider even good nodes in the faulty block as faulty nodes. Hence, it results the degradation of node utilization. This problem is solved by a method which transmits messages to destinations within faulty blocks via multiple “intermediate nodes”. It also divides faulty block into multiple expanded meshes. With these expanded meshes, DAG(Directed Acyclic Graph) is formed and a message is able to be routed by the shortest path according to the DAG. Therefore, the additional number of hops can be resulted. We propose a method that reduces the number of hops by searching direct paths from the destination node to the border of the faulty block. This path is called SCP(Short-Cut Path). If the path and the traversing message is on the same side of outside border of the faulty block, the message will cut into the path found by our method. It also reduces the message traverse latency between the source and the destination node.

다중 프로세서 환경에서의 오류 허용에 대한 적응적 라우팅 기법은 매우 중요한 요소이다. 특히 메쉬 구조를 갖는 다중 프로세서에서의 오류를 허용하는 라우팅 기법은 구현에 있어 간결함을 제공하는 환경으로, 다수의 오류를 허용하기 위해 직사각형 모양의 오류 블록으로 구성하여 라우팅을 수행한다. 이 경우, 블록 내부의 정상적인 노드 역시 오류 노드로 간주되어 전체 노드의 사용율을 저하시키는데, 오류 블록을 몇 개의 확장된 메쉬로 나누고, 구성된 확장된 메쉬들의 관계를 DAG(Directed Acyclic Graph)로 구성하고, 이 DAG에서의 확장된 메쉬간의 최단거리를 구하여 메시지를 전송하는 RIFP (Routing for Irregular Faulty Pattern)기법으로 이를 해결하였다. 그러나, 이 기법은 노드간에 주고받는 메시지가 거치는 hop의 수가 오히려 증가되는 문제가 발생하게 된다. 이러한 문제를 해결하기 위하여 본 논문에서는 증가되는 hop의 수를 억제하기 위해 목적 노드와 이웃 노드들로부터 오류 블록 경계 부분까지 직선 경로 SCP(Short-Cut Path)를 찾아 존재하는 경우, SCP를 적용하는 RIFP를 제안한다.

Keywords

References

  1. K.M.Al-Tawil, M. Abd-Abd-Barr, and F. Ashraf, 'A Survey and Comparison of Wormhole Routing Techniques in Mesh Networks,' IEEE Network, pp.38-45, Mar. 1997 https://doi.org/10.1109/65.580917
  2. J. Duato, 'A Theory of Fault-Tolerant Routing in Wormhole Networks,' IEEE Trans. Parallel and Distributed Systems, vol. 8, no. 8, pp.790-802, Aug. 1997 https://doi.org/10.1109/71.605766
  3. C. Glass and L. Ni, 'Fault-Tolerant Wormhole Routing in Meshes,' 23rd Int'l Symp. Fault-Tolerant Computing, pp.240-249, 1993 https://doi.org/10.1109/FTCS.1993.627327
  4. D. Linder and J. Harden, 'An Adaptive and Fault-Tolerant Wormhole Routing Strategy for k-ary n-cubes,' IEEE Trans. Computers, vol.40, pp.2-12, 1991 https://doi.org/10.1109/12.67315
  5. R.V. Boppana and S. Chalasani, 'Fault-Tolerant Wormhole Routing Algorithms for Mesh Networks,' IEEE Trans. Computers, vol.44, pp.848-864, 1995 https://doi.org/10.1109/12.392844
  6. C.C. Su and K.G. Shin, 'Adaptive Fault-Tolerant Deadlock-Free Routing in Meshes and Hypercubes,' IEEE Trans. Computers, vol.45, pp.666-683, June 1996 https://doi.org/10.1109/12.506423
  7. M.J. Tsai and S.D. Wang, 'Adaptive and Deadlock-Free Routing for Irregular Faulty Pattern in Mesh Multicomputers,' IEEE Trans. Parallel and Distribute Systems, vol.11, no.1, pp50-62, Jan. 2000 https://doi.org/10.1109/71.824641