• Title/Summary/Keyword: deduplication

Search Result 73, Processing Time 0.035 seconds

An analysis of Data Deduplication techniques (데이터 중복 제거 기술 분석)

  • Jho, Min-Jeong;Lee, Chang-hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.305-308
    • /
    • 2016
  • 저장하는 데이터의 용량이 증가함에 따라 데이터들은 효율적으로 보관될 필요성이 증가하였다. 이에 따라, 데이터 용량을 줄이는 기술로 많은 서비스들이 데이터 중복 제거 기술을 사용한다. 본 연구에서는 일부 서비스의 데이터 중복 제거 기술을 분석하고, 데이터 중복 제거 기술의 발전 동향을 예측하고자한다.

Spark-based Distributed and Parallel DNA Deduplication Method (Spark 기반의 분산 병렬 DNA 중복제거 방법)

  • Moon, Jihye;Lee, Hyeonbyeong;Song, Seokil
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.313-314
    • /
    • 2017
  • 이 논문에서는 DNA 분석단계 중 하나인 DNA 리드(Read)에 대한 중복제거 방법을 분산 병렬처리 기법을 적용하여 가속화하는 방법을 제안한다. 기존 제안된 중복제거 기법을 Spark을 기반으로 병렬처리 되도록 하는 접근방법을 취한다. 제안하는 기법은 실험을 통해서 기존 중복제거 기법과 비교하여 성능을 입증한다.

  • PDF

Design of Deduplication Supported Clustering Backup System using File Finger Printing (파일 지문으로 중복 파일을 제거한 클러스터링 백업 시스템 설계)

  • Jeong, Ho-Min;Ko, Young-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.737-740
    • /
    • 2007
  • 기존의 백업시스템에서는 데이터의 중복을 고려하지 않고 백업 데이터 전부를 저장하기 때문에 저장용량 공간을 많이 차지하는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 백업 데이터의 각 파일에 대해서 일정한 크기의 블록 단위로 파일지문을 부여하고 파일지문이 동일할 경우 하나의 사본만을 공유하는 방법으로 백업 데이터의 용량을 감소시키는 방법을 도입하였다. 제안하는 백업 시스템은 중복되어 발생하는 데이터에 대해 하나의 사본만 백업함으로써 백업되는 데이터의 양을 효과적으로 감소시켰다. 또한 백업되는 파일 블록에 대해서 클러스터링 기술을 사용함으로서 입출력 성능 향상을 고려하였다.

  • PDF

Stream based DNA Read Deduplication Method (스트림 기반 DNA 리드 중복제거 방법)

  • Lee, Hyeon-byeong;Song, Seok-il;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.9-10
    • /
    • 2019
  • NGS 분석과정 중 증폭된 DNA 리드(Read)는 중복이 발생하여 이로 인해 다음 단계의 정확도 저하 등의 문제를 야기한다. 이 논문에서는 기존 DNA 리드 중복 제거 도구 중 하나인 Samblaster의 중복제거 알고리즘을 이용하여 분산 병렬 형태로 중복제거를 수행하는 방법을 제안한다. 제안하는 중복제거 방법은 중복제거 전단계인 정렬단계애서 정렬된 리드에 대해 중복제거 키를 생성하고 이를 스트림으로 전달하여 중복제거를 수행한다.

  • PDF

Priority-based Hint Management Scheme for Improving Page Sharing Opportunity of Virtual Machines (가상머신의 페이지 공유 기회를 향상시키기 위한 우선순위 큐 기반 힌트 관리 기법)

  • Nam, Yeji;Lee, Minho;Lee, Dongwoo;Eom, Young Ik
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.947-952
    • /
    • 2016
  • Most data centers attempt to consolidate servers using virtualization technology to efficiently utilize limited physical resources. Moreover, virtualized systems have commonly adopted contents-based page sharing mechanism for page deduplication among virtual machines (VMs). However, previous page sharing schemes are limited by the inability to effectively manage accumulated hints which mean sharable pages in stack. In this paper, we propose a priority-based hint management scheme to efficiently manage accumulated hints, which are sent from guest to host for improving page sharing opportunity in virtualized systems. Experimental results show that our scheme removes pages with low sharing potential, as compared with the previous schemes, by efficiently managing the accumulated pages.

Sanitization of Open-Source Based Deduplicated Filesystem (오픈 소스 중복 제거 파일시스템에서의 완전 삭제)

  • Cho, Hyeonwoong;Kim, SeulGi;Kwon, Taekyoung
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.26 no.5
    • /
    • pp.1141-1149
    • /
    • 2016
  • Deduplicated filesystem can reduce usage of storage. However, it be able to recover deleted block. We studied sanitization of deduplicated filesystem, LessFS which is based on FUSE(Filesystem in USErspace). First, we show a vulnerability recover deleted data in the deduplicated filesystem. We implement sanitization of deduplicated filesystem considering the part of fingerprint DB with data blocks. It takes 60~70 times compared to without sanitization. Which means access time to fingerprint DB and overhead derived from increase of number of chunk have a critical impact on sanitization time. But in case of more than 65,536 Byte of chunksize, it is faster than normal filesystem without deduplication.

Design and Implementation of High Performance Virtual Desktop System Managing Virtual Desktop Image in Main Memory (메인 메모리상에 가상 데스크탑 이미지를 운용하는 고속 가상 데스크탑 시스템 설계 및 구현)

  • Oh, Soo-Cheol;Kim, SeungWoon
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.8
    • /
    • pp.363-368
    • /
    • 2016
  • A storage-based VDI (Virtual Desktop Infrastructure) system has the disadvantage of degraded performance when IOs for the VDI system are concentrated on the storage. The performance of the VDI system decreases rapidly especially, in case of the boot storm wherein all virtual desktops boot simultaneously. In this paper, we propose a main memory-based virtual desktop system managing virtual desktop images on main memory to solve the performance degradation problem including the boot storm. Performance of the main memory-based VDI system is improved by storing the virtual desktop image on the main memory. Also, the virtual desktop images with large size can be stored in the main memory using deduplication technology. Implementation of the proposed VDI system indicated that it has 4 times performance benefit than the storage-based VDI system in case of the boot storm.

A study on the enhanced filtering method of the deduplication for bulk harvest of web records (대규모 웹 기록물의 원격수집을 위한 콘텐츠 중복 필터링 개선 연구)

  • Lee, Yeon-Soo;Nam, Sung-un;Yoon, Dai-hyun
    • The Korean Journal of Archival Studies
    • /
    • no.35
    • /
    • pp.133-160
    • /
    • 2013
  • As the network and electronic devices have been developed rapidly, the influences the web exerts on our daily lives have been increasing. Information created on the web has been playing more and more essential role as the important records which reflect each era. So there is a strong demand to archive information on the web by a standardized method. One of the methods is the snapshot strategy, which is crawling the web contents periodically using automatic software. But there are two problems in this strategy. First, it can harvest the same and duplicate contents and it is also possible that meaningless and useless contents can be crawled due to complex IT skills implemented on the web. In this paper, we will categorize the problems which can emerge when crawling web contents using snapshot strategy and present the possible solutions to settle the problems through the technical aspects by crawling the web contents in the public institutions.

Deduplication Technique for Smartphone Application Update Scenario (스마트폰의 어플리케이션 업데이트 패턴을 고려한 데이터 중복제거 기법 연구)

  • Park, Dae-Jun;Choi, Dong-Soo;Shin, Dong-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.364-366
    • /
    • 2012
  • 스마트폰의 어플리케이션은 어플리케이션 생태계의 발전에 따라 그 수가 많아지고, 업데이트 또한 잦아졌다. 어플리케이션의 업데이트는 낸드 플래시 메모리에 이전 버전을 삭제하고, 새로운 버전의 어플리케이션에 대한 쓰기 명령을 내린다. 따라서 사용자는 낸드 플래시 메모리에서의 상대적으로 느린 쓰기 명령에 의해 스마트폰의 성능의 저하를 느끼고 낸드 플래시 메모리는 반복되는 지우기/쓰기 동작에 의해 수명이 단축된다. 본 논문에서는 업데이트 되는 스마트폰 어플리케이션 데이터가 이전 버전과 큰 차이가 없다는 것에 착안하여 데이터 중복제거를 통해 업데이트 성능을 향상시키고 낸드 플래시 메모리의 수명을 향상시키는 기법을 제안하고 있으며, 실험을 통해서 어플리케이션들에 대한 중복 제거율을 관찰하였다.

A Study on Memory Deduplication using Page Cache Information in Virtualization Environment (가상화 환경에서 페이지 캐시 정보를 이용한 메모리 중복제거 기법에 관한 연구)

  • Lee, Se-Ho;Kim, In-Hyeok;Eom, Young-Ik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.149-151
    • /
    • 2012
  • 서버가상화는 제한된 컴퓨팅 자원을 이용하여 다수의 운영체제를 가동시키는 기술이다. 한정된 컴퓨팅 자원을 이용하는 가상화 기술은 메모리 공간 부족이라는 문제를 야기했다. 이를 해결하기 위한 메모리 중복제거 기술들이 소개되고 있다. 그러나 많은 논문들 호스트와 가상 머신간의 메모리 사용 정보 부족으로 인해 많은 오버헤드를 가지고 메모리 중복제거 기술을 제공하고 있다. 본 논문은 메모리 공유 비중이 가장 큰 가상 머신의 페이지 캐시 정보를 제공하는 파일 시스템을 기반으로 페이지 스캐닝을 통한 효율적인 메모리 중복제거 기법을 제안한다.