• Title/Summary/Keyword: deduplication

Search Result 69, Processing Time 0.085 seconds

An analysis of Data Deduplication techniques (데이터 중복 제거 기술 분석)

  • Jho, Min-Jeong;Lee, Chang-hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.305-308
    • /
    • 2016
  • 저장하는 데이터의 용량이 증가함에 따라 데이터들은 효율적으로 보관될 필요성이 증가하였다. 이에 따라, 데이터 용량을 줄이는 기술로 많은 서비스들이 데이터 중복 제거 기술을 사용한다. 본 연구에서는 일부 서비스의 데이터 중복 제거 기술을 분석하고, 데이터 중복 제거 기술의 발전 동향을 예측하고자한다.

A study on the enhanced filtering method of the deduplication for bulk harvest of web records (대규모 웹 기록물의 원격수집을 위한 콘텐츠 중복 필터링 개선 연구)

  • Lee, Yeon-Soo;Nam, Sung-un;Yoon, Dai-hyun
    • The Korean Journal of Archival Studies
    • /
    • no.35
    • /
    • pp.133-160
    • /
    • 2013
  • As the network and electronic devices have been developed rapidly, the influences the web exerts on our daily lives have been increasing. Information created on the web has been playing more and more essential role as the important records which reflect each era. So there is a strong demand to archive information on the web by a standardized method. One of the methods is the snapshot strategy, which is crawling the web contents periodically using automatic software. But there are two problems in this strategy. First, it can harvest the same and duplicate contents and it is also possible that meaningless and useless contents can be crawled due to complex IT skills implemented on the web. In this paper, we will categorize the problems which can emerge when crawling web contents using snapshot strategy and present the possible solutions to settle the problems through the technical aspects by crawling the web contents in the public institutions.

Priority-based Hint Management Scheme for Improving Page Sharing Opportunity of Virtual Machines (가상머신의 페이지 공유 기회를 향상시키기 위한 우선순위 큐 기반 힌트 관리 기법)

  • Nam, Yeji;Lee, Minho;Lee, Dongwoo;Eom, Young Ik
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.947-952
    • /
    • 2016
  • Most data centers attempt to consolidate servers using virtualization technology to efficiently utilize limited physical resources. Moreover, virtualized systems have commonly adopted contents-based page sharing mechanism for page deduplication among virtual machines (VMs). However, previous page sharing schemes are limited by the inability to effectively manage accumulated hints which mean sharable pages in stack. In this paper, we propose a priority-based hint management scheme to efficiently manage accumulated hints, which are sent from guest to host for improving page sharing opportunity in virtualized systems. Experimental results show that our scheme removes pages with low sharing potential, as compared with the previous schemes, by efficiently managing the accumulated pages.

Sanitization of Open-Source Based Deduplicated Filesystem (오픈 소스 중복 제거 파일시스템에서의 완전 삭제)

  • Cho, Hyeonwoong;Kim, SeulGi;Kwon, Taekyoung
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.26 no.5
    • /
    • pp.1141-1149
    • /
    • 2016
  • Deduplicated filesystem can reduce usage of storage. However, it be able to recover deleted block. We studied sanitization of deduplicated filesystem, LessFS which is based on FUSE(Filesystem in USErspace). First, we show a vulnerability recover deleted data in the deduplicated filesystem. We implement sanitization of deduplicated filesystem considering the part of fingerprint DB with data blocks. It takes 60~70 times compared to without sanitization. Which means access time to fingerprint DB and overhead derived from increase of number of chunk have a critical impact on sanitization time. But in case of more than 65,536 Byte of chunksize, it is faster than normal filesystem without deduplication.

Design and Implementation of High Performance Virtual Desktop System Managing Virtual Desktop Image in Main Memory (메인 메모리상에 가상 데스크탑 이미지를 운용하는 고속 가상 데스크탑 시스템 설계 및 구현)

  • Oh, Soo-Cheol;Kim, SeungWoon
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.8
    • /
    • pp.363-368
    • /
    • 2016
  • A storage-based VDI (Virtual Desktop Infrastructure) system has the disadvantage of degraded performance when IOs for the VDI system are concentrated on the storage. The performance of the VDI system decreases rapidly especially, in case of the boot storm wherein all virtual desktops boot simultaneously. In this paper, we propose a main memory-based virtual desktop system managing virtual desktop images on main memory to solve the performance degradation problem including the boot storm. Performance of the main memory-based VDI system is improved by storing the virtual desktop image on the main memory. Also, the virtual desktop images with large size can be stored in the main memory using deduplication technology. Implementation of the proposed VDI system indicated that it has 4 times performance benefit than the storage-based VDI system in case of the boot storm.

Deduplication Technique for Smartphone Application Update Scenario (스마트폰의 어플리케이션 업데이트 패턴을 고려한 데이터 중복제거 기법 연구)

  • Park, Dae-Jun;Choi, Dong-Soo;Shin, Dong-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.364-366
    • /
    • 2012
  • 스마트폰의 어플리케이션은 어플리케이션 생태계의 발전에 따라 그 수가 많아지고, 업데이트 또한 잦아졌다. 어플리케이션의 업데이트는 낸드 플래시 메모리에 이전 버전을 삭제하고, 새로운 버전의 어플리케이션에 대한 쓰기 명령을 내린다. 따라서 사용자는 낸드 플래시 메모리에서의 상대적으로 느린 쓰기 명령에 의해 스마트폰의 성능의 저하를 느끼고 낸드 플래시 메모리는 반복되는 지우기/쓰기 동작에 의해 수명이 단축된다. 본 논문에서는 업데이트 되는 스마트폰 어플리케이션 데이터가 이전 버전과 큰 차이가 없다는 것에 착안하여 데이터 중복제거를 통해 업데이트 성능을 향상시키고 낸드 플래시 메모리의 수명을 향상시키는 기법을 제안하고 있으며, 실험을 통해서 어플리케이션들에 대한 중복 제거율을 관찰하였다.

A Study on Memory Deduplication using Page Cache Information in Virtualization Environment (가상화 환경에서 페이지 캐시 정보를 이용한 메모리 중복제거 기법에 관한 연구)

  • Lee, Se-Ho;Kim, In-Hyeok;Eom, Young-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.149-151
    • /
    • 2012
  • 서버가상화는 제한된 컴퓨팅 자원을 이용하여 다수의 운영체제를 가동시키는 기술이다. 한정된 컴퓨팅 자원을 이용하는 가상화 기술은 메모리 공간 부족이라는 문제를 야기했다. 이를 해결하기 위한 메모리 중복제거 기술들이 소개되고 있다. 그러나 많은 논문들 호스트와 가상 머신간의 메모리 사용 정보 부족으로 인해 많은 오버헤드를 가지고 메모리 중복제거 기술을 제공하고 있다. 본 논문은 메모리 공유 비중이 가장 큰 가상 머신의 페이지 캐시 정보를 제공하는 파일 시스템을 기반으로 페이지 스캐닝을 통한 효율적인 메모리 중복제거 기법을 제안한다.

File Deduplication System Using Logical Partition (논리 파티션을 이용한 파일 중복 제거 시스템)

  • Kong, Jin-San;Jung, Ho-Min;Ko, Young-Woong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.285-287
    • /
    • 2012
  • 기존의 타깃(target) 기반 중복제거 시스템은 저장된 모든 파일에 대하여 각각 중복 제거를 수행한다. 이러한 중복제거 시스템의 문제점은 파일의 크기가 작고 파일의 개수가 많아지는 경우에 해시 값을 구하는 시간과 메타 데이터를 유지하는데 오버헤드가 증가한다. 이러한 문제점을 해결하기 위해 본 논문에서는 논리 파티션을 이용하여 개별 파일들을 묶어서 중복 제거를 수행하는 시스템을 설계 및 구현하였다. 실험 결과 논리 파티션의 용량이 50% 이상일 때 기존 중복제거 기법에 비해서 중복 제거 비율 및 시간적인 측면에서 더 효율적임을 보였다.

Deduplication Server Supporting Dynamic Mode Change (동적 모드 변경을 제공하는 중복 제거 서버)

  • Jung, Ho Min;Kim, Jin;Ko, Young Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.218-221
    • /
    • 2010
  • 현재 중복 제거 기술은 클라이언트 기반 중복 제거 모델, 인라인(in-line) 중복 제거 모델 그리고 포스트 프로세스(post-process) 중복 제거 모델로 구분할 수 있다. 본 연구에서는 클라이언트와 서버의 부하를 모니터링하여 시스템 부하에 따라 중복 제거의 핵심 작업을 동적으로 변경한다. 즉, 클라이언트가 유휴하고 서버의 자원 사용량이 높은 경우에는 클라이언트 기반 중복 제거 모델로 동작시키고, 클라이언트의 자원 사용량이 높고 서버가 유휴한(idle) 경우에는 인라인 중복 제거 모델로 동작시킨다. 그리고 전체 시스템이 과부하인 경우는 포스트 프로세스 모델로 동작하게 된다. 제안하는 방식에 대한 실험 결과 전체 시스템의 처리율이 높아지는 것을 확인하였다.

  • PDF

A CPU-GPGPU Based Multithread File Chunking System (CPU-GPGPU 를 기반으로 멀티스레드 파일청킹 시스템)

  • Tang, Zhi;Won, You-Jip
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.336-337
    • /
    • 2011
  • The popularity of general purpose GPU(GPGPU)makes the CPU-GPGPU heterogeneous architecture normal. Therefore, tradeoff the usage of CPU and GPGPU becomes a way to improve performance of programs. In this work, we exploit the properties of the CPU-GPGPU heterogeneous architecture and use them to accelerate the content based chunking operation of deduplication. We built a prototype system which is able to coordinate CPU and GPGPU to chunk file and has been proven to have a better performance compared to using either CPU or GPGPU alone.