Fault Tolerant System based on Recovery Agents

회복 에이전트 기반 결함 포용 시스템

  • 이화민 (고려대학교 컴퓨터교육과) ;
  • 정순영 (고려대학교 컴퓨터교육과) ;
  • 유헌창 (고려대학교 컴퓨터교육과)
  • Received : 2002.03.25
  • Accepted : 2002.04.19
  • Published : 2002.04.30

Abstract

This paper proposes a new approach to rollback-recovery using multi-agent in distributed computing system. Previous rollback-recovery protocols are dependent on inherent communication and operating system, which causes a decline of computing performance in distributed computing system. By using multi-agent, we propose rollback-recovery protocol that is independent on operating system. We define three kinds of agent. One is a recovery agent that performs rollback-recovery protocol after a failure. Other is an information agent that constructs domain knowledge as a rule of fault tolerance and information during failure-free operation. The other is facilitator agent that controls the efficient communication between agents. Also we propose rollback-recovery protocol using multi-agent and simulated the proposed rollback-recovery protocol using JAVA and agent communication language in CORBA environment.

본 논문에서는 기존의 분산 컴퓨팅 시스템의 결합 포용 기법에 멀티 에이전트의 개념을 도입하여 운영체제에 독립적인 에이전트를 이용한 회복기법을 제안한다. 기존의 복귀회복기법들은 운영체제의 관리하에서 결함 발생 시 회복에 관련된 동기화를 수행하는데, 이는 전체 분산 컴퓨팅 시스템의 성능을 저하시키는 원인이 되었다, 이러한 문제점을 해결하기 위해 본 논문에서는 프로세스의 회복을 담당할 회복 에이전트, 결함 포용 규칙과 정보를 유지 관리하는 정보 에이전트, 전체 에이전트간의 통신 기능을 담당할 조정 에이전트를 정의 및 설계하고 회복 에이전트를 이용한 회복 알고리즘을 제안한다. 그리고 코바 환경에서 자바와 에이전트 통신 언어를 이용하여 제안한 회복 알고리즘을 실험하였다. 분산 컴퓨팅 시스템에서 회복 에이전트의 도입은 결함 발생 프로세스의 결함 회복 작업을 어플리케이션 계층과 독립적인 별도의 계층으로 계층화하여 결함 포용을 위한 메카니즘의 이식성 증대 및 확장성 증대를 가져온다.

Keywords