DOI QR코드

DOI QR Code

Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity

쿠쿠 필터 유사도를 적용한 다중 필터 분산 중복 제거 시스템 설계 및 구현

  • Kim, Yeong-A (Data HRD Headquarters, EN-CORE.Co.,Ltd.) ;
  • Kim, Gea-Hee (Department of Computer Science & Engineering, GNTECH) ;
  • Kim, Hyun-Ju (Department of Computer Science & Engineering, GNTECH) ;
  • Kim, Chang-Geun (Department of Computer Science & Engineering, GNTECH)
  • 김영아 (엔코아 데이터 HRD 본부) ;
  • 김계희 (경남과학기술대학교 컴퓨터공학과) ;
  • 김현주 (경남과학기술대학교 컴퓨터공학과) ;
  • 김창근 (경남과학기술대학교 컴퓨터공학과)
  • Received : 2020.08.18
  • Accepted : 2020.10.20
  • Published : 2020.10.28

Abstract

The need for storage, management, and retrieval techniques for alternative data has emerged as technologies based on data generated from business activities conducted by enterprises have emerged as the key to business success in recent years. Existing big data platform systems must load a large amount of data generated in real time without delay to process unstructured data, which is an alternative data, and efficiently manage storage space by utilizing a deduplication system of different storages when redundant data occurs. In this paper, we propose a multi-layer distributed data deduplication process system using the similarity of the Cuckoo hashing filter technique considering the characteristics of big data. Similarity between virtual machines is applied as Cuckoo hash, individual storage nodes can improve performance with deduplication efficiency, and multi-layer Cuckoo filter is applied to reduce processing time. Experimental results show that the proposed method shortens the processing time by 8.9% and increases the deduplication rate by 10.3%.

최근 몇 년 동안 기업이 수행하는 비즈니스 활동에서 생성된 데이터를 기반으로 하는 기술이 비즈니스 성공의 열쇠로 부상함에 따라 대체 데이터에 대한 저장, 관리 및 검색 기술에 대한 필요성이 대두되었다. 기존 빅 데이터 플랫폼 시스템은 대체 데이터인 비정형 데이터를 처리하기 위해 실시간으로 생성된 대량의 데이터를 지체 없이 로드하고 중복 데이터 발생 시 서로 다른 스토리지의 중복 제거 시스템을 활용하여 스토리지 공간을 효율적으로 관리해야 한다. 본 논문에서는 빅 데이터의 특성을 고려하여 쿠쿠 해싱 필터 기법의 유사도를 이용한 다중 계층 분산 데이터 중복 제거 프로세스 시스템을 제안한다. 가상 머신 간의 유사성을 쿠쿠 해시로 적용함으로써 개별 스토리지 노드는 중복 제거 효율성으로 성능을 향상시키고 다중 레이어 쿠쿠 필터를 적용하여 처리 시간을 줄일 수 있다. 실험 결과 제안한 방법은 기존 블룸 필터를 이용한 중복 제거 기법에 의해 8.9%의 처리 시간 단축과 중복 제거율이 10.3% 높아짐을 확인하였다.

Keywords

References

  1. L. Richard et al. (2008). Emerging Tech and Modern IT: The Key to Unlocking Your Data Capital, (Online). http://www.idc.com
  2. Swift, (n. d.). OpenStack Object Storage.(Online).https://docs.openstack.org/swift/latest/.
  3. A. Sage et al. (2006). Ceph: A Scalable, High-Performance Distributed File System. OSDI, 307-320
  4. Leo Project. (2014). The Lion of Sorage Systems. LeoFS. (Online). http://leo-project.net/.
  5. P. Raj & A. Raman. (2018). Software-defined storage (SDS) for storage virtualization. In Software-defined cloud centers (pp. 35-64). Springer, Cham.
  6. Brodkin et al. (2018). EMC Atoms Cloud Storage. (Online). http://www.emc.com/storage/atmos/atmos.htm/.
  7. Amplidata.(2020). Himaraya. (Online).http://amplidata.com/.
  8. Amazon. (n. d.). Amazon simple storage service (amazon s3). (Online).http://aws.amazon.com/s3/
  9. Google. (n. d.). Google cloud storage. (Online). https://cloud.google.com/storage/docs/json_api/v1/objects.
  10. X. Zhao et al. (2014). A scalable deduplication file system for virtual machine images. Parallel and Distributed Systems, IEEE Transactions, 25(5), 1257-1266, DOI : 10.1109 / TPDS.2013.173 https://doi.org/10.1109/TPDS.2013.173
  11. R. Kutzelnigg. (2010). An improved version of cuckoo hashing: Average case analysis of construction cost and search operations, Math. Comput. Sci., 3(1), 47-60. https://doi.org/10.1007/s11786-009-0005-x
  12. D. Yoon & D. H. Kim. (2018). Distributed data deduplication technique using similarity based clustering and multi-layer bloom filter. Journal of Korean Institute of Next Generation Computing, 14(5), 60-70.
  13. S. S. Nam & C. H. Seo. (2016). Privacy Preserving Source Based Deduplicaton Method. Journal of Digital Convergence, 14(2), 175-181 DOI : 10.14400/JDC.2016.14.2.175
  14. S. W. Jeong et al. (2018). Cyber KillChain Based Security Policy Utilizing Hash for Internet of Things. Journal of Digital Convergence, 16(9), 179-185. DOI : 10.14400/JDC.2018.16.9.179
  15. Y. S. Jeong et al. (2015). An Efficient data management Scheme for Hierarchical Multi-processing using Double Hash Chain. Journal of Digital Convergence, 13(10), 271-278. DOI : 10.14400/JDC.2015.13.10.271
  16. Y. S. Jeong et al (2015). Multi-Attribute based on Data Management Scheme in Big Data Environment. Journal of Digital Convergence, 13(1), 263-268 DOI : 10.14400/JDC.2015.13.1.263
  17. R. Rivest. (1992). The MD5 Message-Digest Algorithm, 1992RFC, IETF Network Working Group.