DOI QR코드

DOI QR Code

Detection and Recovery of Failure Node in SAN-based Cluster Shared File System $SANique^{TM}$

SAN 기반 클러스터 공유 파일 시스템 $SANique^{TM}$의 오류 노드 탐지 및 회복 기법

  • 이규웅 (상지대학교 컴퓨터정보공학부)
  • Published : 2009.12.31

Abstract

This paper describes the design overview of shared file system $SANique^{TM}$ and proposes the method for detection of failure node and recovery management algorithm. We also illustrate the characteristics and system architecture of shared file system based on SAN. In order to provide uninterrupted service, the detection and recovery methods are proposed under the all possible system failures and natural disasters. The various kinds of system failures and disasters are characterized and then the detection and recovery method are proposed in each disconnected computing node group.

본 논문은 저장장치 전용 네트워크인 SAN 상에서 운영되는 공유 파일 시스템 $SANique^{TM}$의 개괄적인 설계 방법과 공유 파일 시스템내의 오류노드탐지 및 회복 기법에 대한 방법을 설명한다. SAN 기반공유 파일 시스템의 특징 및 구조를 설명하고 $SANique^{TM}$의 구성요소와 개괄적 설계방법을 기술한다. 또한, 공유 파일 시스템에 참여하고 있는 컴퓨팅 노드의 오류로 인한 서비스 지연 또는 중지를 방지하기 위하여 오류 노드 탐지 및 회복기법을 설명한다. 대규모 컴퓨팅 노드로 구성된 공유 파일 시스템상에서 발생할 수 있는 오류의 종류를 나열하고, 오류로 인한 분할된 서브 그룹들 간의 오류 상황을 상호 탐지 할 수 있는 방법을 설명하고 이를 해결하기 위한 기법을 제안한다.

Keywords

References

  1. VERITAS Software Corp., Veritas Volume Manager, http://www.veritas.com
  2. H. Maulshagen, 'Logical Volume Manager for Linux', Sistina Technical Memo, http://www. sistina.com
  3. MacroImpact, Inc., 'SANique Cluster VolumeManager Functional Specification', MacroImpact Technical Memo, 2008
  4. S. R. Soltis, T. M. Ruwart, and M. T. O'keefe, 'The Global File Systems', Proc. Of the 5th NASA Goddard Conference on Mass Storage Systems and Technologies, 1996
  5. Ghemawat, S., Gobioff, H., and Leung, S. -T. The Google File System, In 19th SOSP, Dec. 2003. pp29-43
  6. Burrows, M. The Chubby Lock Service for Loosely-Coupled Distributed Systems, In Proc. of the 7th OSDI, 2006. 11
  7. Jeffrey Dean and Sanjay Ghemawat, 'MapReduce : Simplified Data Processing on large Clusters', In Proc. of the 5th OSDI, 2004. 11
  8. 김명준 외, 클러스터 기반 통합 멀티미디어 DBMS 개발, 정보통신연구진흥원, 연구결과보고서, 2002.12
  9. P. S Weygant, 'Primer on Clusters for High Availability', Technical Paper at Hewlett- Packard Labs, CA, 2000
  10. C. C. Fan and J. Bruck, 'The Raincore Distributed Session Service for Networking Elements', Proc. Of the International Parallel and Distributed Processing Symposium, 2000