DOI QR코드

DOI QR Code

삼중구조 시스템의 실시간 태스크 최적 체크포인터 및 분산 고장 탐지 구간 선정

Determination of the Optimal Checkpoint and Distributed Fault Detection Interval for Real-Time Tasks on Triple Modular Redundancy Systems

  • 곽성우 (부경대학교 제어계측공학과) ;
  • 양정민 (경북대학교 전자공학부)
  • 투고 : 2023.05.02
  • 심사 : 2023.06.17
  • 발행 : 2023.06.30

초록

삼중구조 시스템에서는 하나의 프로세서에서 고장이 발생해도 여유도 때문에 주어진 임무를 계속 수행할 수 있다. 본 연구에서는 삼중구조 시스템에 체크포인터 기법을 도입한 후 고장 탐지와 체크포인터를 분리하는 새로운 고장 극복 방법을 제안한다. 먼저 한 개 프로세서에서 고장이 발생하면 고장 탐지와 동시에 모든 프로세서의 상태를 동기화함으로써 고장을 복구한다. 또한 두 개 이상의 프로세서에서 동시에 고장이 발생하면 직전의 체크포인터로 회귀하여 태스크를 재실행함으로써 고장을 복구한다. 본 논문에서는 태스크가 데드라인 이내에서 성공적으로 수행될 확률을 최대화하는 고장 탐지 구간과 체크포인터 구간의 선정 방법을 제안한다. 제안된 방식을 탑재한 삼중구조 시스템을 마코프 체인으로 모델링하고 실시간 태스크의 성공적 수행 확률을 도출하는 모의실험을 수행하여 최적의 해를 구하는 과정을 제시한다.

Triple modular redundancy (TMR) systems can continue their mission by virtue of their structural redundancy even if one processor is attacked by faults. In this paper, we propose a new fault tolerance strategy by introducing checkpoints into the TMR system in which data saving and fault detection processes are separated while they corporate together in the conventional checkpoints. Faults in one processor are tolerated by synchronizing the state of three processors upon detecting faults. Simultaneous faults occurring to more than one processor are tolerated by re-executing the task from the latest checkpoint. We propose the checkpoint placement and fault detection strategy to maximize the probability of successful execution of a task within the given deadline. We develop the Markov chain model for the TMR system having the proposed checkpoint strategy, and derive the optimal fault detection and checkpoint interval.

키워드

과제정보

이 논문은 부경대학교 자율창의학술연구비(2022년)에 의하여 연구되었음.

참고문헌

  1. S. Punnekkat, A. Burns, and R. Davis, "Analysis of checkpointing for real-time systems," International Journal of Time-Critical Computing Systems, vol. 20, no. 1, 2001, pp. 83-102.
  2. H. Suh, "An improved algorithm of distributed QoS in real-time networks," J. of the Korea Institute of Electronic Communication Sciences, vol. 7, no. 1, Feb. 2012, pp. 53-59.
  3. Y. Park, J. Li, and Y. Lee, "AUV platform design for unmanned remotely construction and harbor infrastructure," J. of the Korea Institute of Electronic Communication Sciences, vol. 16, no. 6, Dec. 2021, pp. 1089-1094.
  4. S. Ko and T. Kwon, "Intermediate node mobility management technique by real-time monitoring in CCN environment," J. of the Korea Institute of Electronic Communication Sciences, vol. 17, no. 5, Oct. 2022, pp. 783-790.
  5. C. Kim and J. Seo, "Design and implementation of realtime things control system using MQTT and websocket in IoT environment," J. of the Korea Institute of Electronic Communication Sciences, vol. 13, no. 3, June 2018, pp. 517-524.
  6. T. Ozaki, T. Dohi, H. Okamura, and N. Kaio, "Distribution-free checkpoint placement algorithms based on min-max principle," IEEE Transactions on Dependable and Secure Computing, vol. 3, no. 2, Apr.-Jun. 2006, pp. 130-140. https://doi.org/10.1109/TDSC.2006.22
  7. J. Young, "A first order approximation to the optimal checkpoint intervals," Communications of the ACM, vol. 17, no. 9, Sept. 1974, pp. 530-531. https://doi.org/10.1145/361147.361115
  8. Y. Ling, J. Mi, and X. Lin, "A variational calculus approach to optimal checkpoint placement," IEEE Transactions on Computers, vol. 50, no. 7, July 2001, pp. 699-708. https://doi.org/10.1109/12.936236
  9. S. Kwak and Y. Jung, "Determination of optimal checkpoint interval for RM scheduled real-time tasks," The Transactions of the Korean Institute of Electrical Engineers, vol. 56, no. 6, June 2007, pp. 1122-1129.
  10. S. Kwak and J.-M. Yang, "Determination of optimal checkpoint intervals for real-time tasks using distributed fault detection," Journal of Korean Institute of Intelligent Systems, vol. 26, no. 3, July 2016, pp. 202-207. https://doi.org/10.5391/JKIIS.2016.26.3.202