DOI QR코드

DOI QR Code

다중 분할된 구조를 가지는 클러스터 검사점 저장 기법

A Multistriped Checkpointing Scheme for the Fault-tolerant Cluster Computers

  • 장윤석 (대진대학교 공과대학 컴퓨터공학과)
  • 발행 : 2006.12.31

초록

검사점 저장 기법을 사용하여 주기적으로 클러스터 노드들의 프로세스 수행 정보를 전역 저장 장치에 저장하는 분산 클러스터 시스템에서 결함 허용 성능을 유지하는 데 드는 비용을 줄이고 전체 프로세스의 수행 성능을 증가시키기 위해서는 검사점 정보를 저장할 때에 네트워크로 전달되는 부하를 각 노드에 최대한 적절하게 분산하여 데이터 저장 시간을 줄임으로써 검사점 정보를 저장하는 동안 전체 클러스터 시스템의 프로세스가 지연되는 시간을 줄이도록 하여야 한다. 이를 위하여 분산 RAID 기반의 단일 입출력 공간을 사용하는. 클러스터 시스템에서는 여러가지 검사점 저장 기법을 사용하며, 검사점 정보의 저장 기법에 따라서 저장 성능과 결함 회복 성능이 달라진다. 본 연구에서는 분할된 검사점 저장 기법을 개선하여 검사점 데이터를 분산 RAID 기반의 단일 입출력 공간에 저장할 때에 그룹별로 분할되는 분할 그룹 크기를 검사점 정보가 저장될 때의 네트워크의 트래픽에 따라서 동적으로 결정하여 네트워크를 통한 분산 RAID에 저장함으로써 네트워크 병목현상을 최소화하는 다중 분할된 검사점 저장 구조를 제안하였다. 제안된 구조의 성능을 분석하기 위하여 최대 512개의 가상 노드로 구성된 클러스터 시스템을 대상으로 하여 MPI 와 Linpack HPC 벤치마크를 통한 성능 평가를 수행하였으며, 성능 평가 결과는 검사점 정보의 크기와 클러스터의 크기가 증가할수록 제안된 기법이 검사점 정보의 저장과 결함 회복 능력에 대하여 기존의 검사점 저장 기법에 비하여 우수한 성능을 보인다.

The checkpointing schemes should reduce the process delay through managing the checkpoints of each node to fit the network load to enhance the performance of the process running on the cluster system that write the checkpoints into its global stable storage. For this reason, a cluster system with single IO space on a distributed RAID chooses a suitable checkpointng scheme to get the maximum IO performance and the best rollback recovery efficiency. In this paper, we improved the striped checkpointing scheme with dynamic stripe group size by adapting to the network bandwidth variation at the point of checkpointing. To analyze the performance of the multi striped checkpointing scheme, we applied Linpack HPC benchmark with MPI on our own cluster system with maximum 512 virtual nodes. The benchmark results showed that the multistriped checkpointing scheme has better performance than the striped checkpointing scheme on the checkpoint writing efficiency and rollback recovery at heavy system load.

키워드

참고문헌

  1. L. Alvisi,B. Hoppe and K. Marzullo, 'Nonblocking and Orphan-Free Message Logging Protocols,' In Proceedings of the 23th Symposium on Fault-Tolerant Computing, pp. 145-154, 1993 https://doi.org/10.1109/FTCS.1993.627318
  2. P. J. Braam et al., 'The Lustre Storage Architecture,' Cluster File System. Inc., Mar., 2003
  3. G. Cao and M. Singhal, 'On Coordinated Checkpointing in Distributed Systems,' IEEE Transactions on Parallel and Distributed Systems, Vol.9, No.12, 1998 https://doi.org/10.1109/71.737697
  4. Y. Chang et al, 'Performance Evaluation of the Striped Checkpointing Algorithm on the Distributed RAID for Cluster Computer,' Lecture Notes in Computer Science, Vol.2658, pp.955-962, 2003
  5. P. Carns et al. 'PVFS: A Parallel File System for Linux Clusters,' In Proceedings of the 4th Annual Linux Showcase and Conference, pp.317-327, 2000
  6. E. Elnozahy and W. Zwaenepoel, 'On the Use and Implementation of Message Logging,' In Proceedings of 24th International Symposium on Fault-Tolerant Computing, 1994 https://doi.org/10.1109/FTCS.1994.315630
  7. E. N. Elnozahy, and W. Zwaenepoel, 'Manetho: Transparent Rollback-Recovery with Low Overhead, Limited Rollback and Fast Output Commit,' IEEE Transactions on Computers, Vol.41, No.3, pp.526-531, 1992 https://doi.org/10.1109/12.142678
  8. J. H. Hartman et al., 'The Zebra Striped Network File System,' ACM Transactions on Computer System, Vol. 13, No.3,pp.274-310, 1995 https://doi.org/10.1145/210126.210131
  9. K. Hwang and Z. Xu, 'Scalable Parallel Computing', McGraw-Hill,2000
  10. K. Hwang, H. Jin, R. Ho and W. Ro, 'Reliable Cluster Computing with a New Checkpointing RAID-x Architecture,' Proceedings of 9-th Workshop on Heterogeneous Computing, Cancum, Mexico, 2000 https://doi.org/10.1109/HCW.2000.843742
  11. K. Hwang, H. Jin, and R. Ho, 'RAID-x: A New Distributed Disk Array for I/O Centric Cluster Computing,' Proceedings of 9th High-Performance Distributed Computing Symposium, Pittsburgh, 2000 https://doi.org/10.1109/HPDC.2000.868660
  12. K. Hwang, H. Jin, E. Chow, C. Wang, and Z. Xu, 'Designing SSI Clusters with Hierarchical Checkpointing and Single IO Space,' IEEE Concurrency Magazine, 1999 https://doi.org/10.1109/4434.749136
  13. J. Plank, M. Beck, G. Kingsley, and K. Li, 'Libckpt: Transparent Checkpointing Under UNIX,' In Proceedings of USENIX Winter 1995 Technical Conference, 1995
  14. J. Plank K. Li, and M. Puening, 'Diskless Checkpointing,' IEEE Transactions on parallel and Distributed Systems, 1998 https://doi.org/10.1109/71.730527
  15. K. W. Preslan et al., 'A 64bit, Shared Disk File System for Linux,' In Proceedings of the 16th IEEE Mass Storage Systems Symposium,pp.22-41, 1999 https://doi.org/10.1109/MASS.1999.829973
  16. R. Sandberg, 'The SUN Network Filesystem: Design, Implementation and Experience,' SUN Microsystems, Inc., pp.119-130, 1985
  17. F. Schmuck et al., 'GPFS: A Shared-Disk File System for Large Computing Clusters,' In Proceedings of the FAST Conference on File and Storage Technologies, pp.231-234, 2002
  18. N. Vaidya, 'Staggered Consistent Checkpointing,' IEEE Transactions on Parallel and Distributed Systems, Vol.10, No.7, 1999 https://doi.org/10.1109/71.780864