Dynamic Cluster Management of Hadoop Distributed Filesystem

하둡 분산 파일시스템의 동적 클러스터 관리 기법

  • Published : 2016.10.27

Abstract

Hadoop Distributed File System(HDFS) is a file system for distributed processing of big data by replicating data to distributed data nodes. HDFS cluster shows a great scalability up to thousands of nodes, but it assumes a exclusive node cluster with numerous nodes for the big data processing. Various operational-purpose worker systems used by office are hardly considered as a part of cluster. This paper discusses this problem and proposes a dynamic cluster management technique to increase storage capability and analytic performance of hadoop cluster. The propsed technique can add legacy systems to the cluster and can remove them from the cluster dynamically depending on their availability.

하둡 분산 파일시스템(HDFS)는 빅데이터의 병렬 분산 처리를 위해 다수의 노드에 데이터를 중복 저장하는 파일시스템이다. HDFS의 분산 노드 클러스터는 수천 개 이상의 규모 확장성을 갖추고 있으나 빅데이터 처리를 위한 전용 하드웨어를 가정하고 있으며, 기존의 기업 및 병원에서 사용하고 있는 다양한 유휴 전산 자원을 고려하지는 못하는 문제가 있다. 본 논문에서는 기관 내 존재하는 다양한 유휴 전산 자원을 필요에 따라 동적으로 HDFS에 추가함으로써 빅데이터 저장 및 분석 성능을 향상시킬 수 있는 동적 클러스터 관리 기법을 제시한다.

Keywords