• 제목/요약/키워드: deduplication

검색결과 73건 처리시간 0.038초

데이터 중복 제거 기술 분석 (An analysis of Data Deduplication techniques)

  • 조민정;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.305-308
    • /
    • 2016
  • 저장하는 데이터의 용량이 증가함에 따라 데이터들은 효율적으로 보관될 필요성이 증가하였다. 이에 따라, 데이터 용량을 줄이는 기술로 많은 서비스들이 데이터 중복 제거 기술을 사용한다. 본 연구에서는 일부 서비스의 데이터 중복 제거 기술을 분석하고, 데이터 중복 제거 기술의 발전 동향을 예측하고자한다.

Spark 기반의 분산 병렬 DNA 중복제거 방법 (Spark-based Distributed and Parallel DNA Deduplication Method)

  • 문지혜;이현병;송석일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.313-314
    • /
    • 2017
  • 이 논문에서는 DNA 분석단계 중 하나인 DNA 리드(Read)에 대한 중복제거 방법을 분산 병렬처리 기법을 적용하여 가속화하는 방법을 제안한다. 기존 제안된 중복제거 기법을 Spark을 기반으로 병렬처리 되도록 하는 접근방법을 취한다. 제안하는 기법은 실험을 통해서 기존 중복제거 기법과 비교하여 성능을 입증한다.

  • PDF

파일 지문으로 중복 파일을 제거한 클러스터링 백업 시스템 설계 (Design of Deduplication Supported Clustering Backup System using File Finger Printing)

  • 정호민;고영웅
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.737-740
    • /
    • 2007
  • 기존의 백업시스템에서는 데이터의 중복을 고려하지 않고 백업 데이터 전부를 저장하기 때문에 저장용량 공간을 많이 차지하는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 백업 데이터의 각 파일에 대해서 일정한 크기의 블록 단위로 파일지문을 부여하고 파일지문이 동일할 경우 하나의 사본만을 공유하는 방법으로 백업 데이터의 용량을 감소시키는 방법을 도입하였다. 제안하는 백업 시스템은 중복되어 발생하는 데이터에 대해 하나의 사본만 백업함으로써 백업되는 데이터의 양을 효과적으로 감소시켰다. 또한 백업되는 파일 블록에 대해서 클러스터링 기술을 사용함으로서 입출력 성능 향상을 고려하였다.

  • PDF

스트림 기반 DNA 리드 중복제거 방법 (Stream based DNA Read Deduplication Method)

  • 이현병;송석일;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.9-10
    • /
    • 2019
  • NGS 분석과정 중 증폭된 DNA 리드(Read)는 중복이 발생하여 이로 인해 다음 단계의 정확도 저하 등의 문제를 야기한다. 이 논문에서는 기존 DNA 리드 중복 제거 도구 중 하나인 Samblaster의 중복제거 알고리즘을 이용하여 분산 병렬 형태로 중복제거를 수행하는 방법을 제안한다. 제안하는 중복제거 방법은 중복제거 전단계인 정렬단계애서 정렬된 리드에 대해 중복제거 키를 생성하고 이를 스트림으로 전달하여 중복제거를 수행한다.

  • PDF

가상머신의 페이지 공유 기회를 향상시키기 위한 우선순위 큐 기반 힌트 관리 기법 (Priority-based Hint Management Scheme for Improving Page Sharing Opportunity of Virtual Machines)

  • 남예지;이민호;이동우;엄영익
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.947-952
    • /
    • 2016
  • 대부분의 데이터 센터에서는 제한된 물리 자원을 효율적으로 사용하기 위해 가상화 기술을 이용하여 서버 통합을 시도하고 있다. 또한, 가상화 기술이 적용된 시스템에서는 가상머신 간의 중복된 내용의 페이지를 제거하기 위해 내용 기반의 페이지 공유 기법을 흔히 사용한다. 하지만, 기존의 메모리 공유기법의 경우 공유 가능한 페이지를 의미하는 힌트를 단순히 스택에 저장함으로써 해당 정보를 효율적으로 관리하지 못하는 단점이 있다. 본 논문에서는 가상화 시스템의 페이지 공유 기회를 향상시키기 위해 게스트에서 호스트로 전달된 힌트를 효율적으로 관리하기 위한 우선순위 큐 기반 힌트 관리 기법을 제안한다. 실험 결과를 보면 기존의 기법보다 제안기법이 효율적으로 힌트를 관리하여 공유 가능성이 낮은 힌트를 우선적으로 제거하는 것을 확인할 수 있다.

오픈 소스 중복 제거 파일시스템에서의 완전 삭제 (Sanitization of Open-Source Based Deduplicated Filesystem)

  • 조현웅;김슬기;권태경
    • 정보보호학회논문지
    • /
    • 제26권5호
    • /
    • pp.1141-1149
    • /
    • 2016
  • 중복 제거 파일시스템은 저장 공간 절약의 이점이 있지만, 기존 완전 삭제 도구를 이용하는 경우 여전히 지워진 블록이 복원될 우려가 있다. 본 논문에서는 FUSE(Filesystem in USErspace)를 이용하여 개발된 오픈 소스 중복 제거 파일시스템인 LessFS를 바탕으로 완전 삭제 기법을 연구하였다. 먼저 중복 제거 파일시스템에서 지워진 데이터 블록을 복구하는 취약점을 보였으며, 데이터 블록과 함께 fingerprint DB영역을 고려한 완전 삭제 기법을 제안하고 구현하였다. 성능 측정 결과 완전 삭제에 필요한 시간은 완전 삭제가 적용되지 않은 경우에 비해 60~70배 가량으로 나타났으며, 이러한 작업 수행시간의 증가는 chunk의 증가로 인한 fingerprint DB 접근에 따른 오버헤드가 큰 비중을 차지하는 것으로 나타났다. 또한 chunk 크기가 65,536바이트를 넘는 경우에는 기존 파일시스템의 완전 삭제 기법보다더 좋은 완전 삭제 성능을 보였다.

메인 메모리상에 가상 데스크탑 이미지를 운용하는 고속 가상 데스크탑 시스템 설계 및 구현 (Design and Implementation of High Performance Virtual Desktop System Managing Virtual Desktop Image in Main Memory)

  • 오수철;김성운
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권8호
    • /
    • pp.363-368
    • /
    • 2016
  • 기존의 스토리지 기반 가상 데스크탑 시스템은 디스크에 입출력이 집중될 경우 성능이 저하되는 문제가 발생하였다. 따라서, 부트 스톰과 같이 여러 대의 가상 데스크탑이 동시에 부팅할 경우, 시스템의 성능이 급격히 저하되었다. 본 논문에서는 가상 데스크탑 시스템의 성능을 향상시킬 수 있는 메인 메모리 기반 가상 데스크탑 시스템을 제안한다. 본 시스템에서는 가상 데스크탑 이미지를 메인 메모리에 저장함으로써 전체 시스템의 성능을 향상시키고, 중복 제거 기술을 적용하여 용량이 많은 가상 데스크탑 이미지를 한정된 크기의 메인 메모리에 저장하였다. 본 시스템의 구현 및 실험을 통하여 가상 데스크탑을 동시 부팅할 때, 스토리지 기반 가상 데스크탑 보다 부팅 속도가 4배 빠름을 확인하였다.

대규모 웹 기록물의 원격수집을 위한 콘텐츠 중복 필터링 개선 연구 (A study on the enhanced filtering method of the deduplication for bulk harvest of web records)

  • 이연수;남성운;윤대현
    • 기록학연구
    • /
    • 제35호
    • /
    • pp.133-160
    • /
    • 2013
  • 네트워크 및 정보통신기기가 발전함에 따라 웹이 우리 일상에 미치는 영향력은 점점 더 증가하고 있다. 또한 웹 공간에서 생성되는 정보도 각 시대를 반영하는 중요한 기록물로서 그 중요성이 나날이 커지고 있다. 이에 따라 웹 정보들을 아카이빙 할 수 있는 표준화된 방법이 요구되고 있으며, 그중 한 가지가 자동화된 수집도구를 사용하여 주기적으로 수집하는 스냅샷 전략이다. 하지만 스냅샷 전략은 주기적으로 웹 콘텐츠를 수집하기 때문에 동일한 웹 콘텐츠가 중복 수집되는 문제가 있다. 또한 웹 환경에서 구현되는 복잡한 기술로 인하여 의미 없는 웹 콘텐츠가 수집될 가능성도 배제할 수 없는 실정이다. 본 논문에서는 공공기관 홈페이지 웹 콘텐츠를 스냅샷 전략으로 수집한 사례 분석을 통해서 원격 수집할 때 발생할 수 있는 콘텐츠 중복 문제들을 살펴보고, 기술 측면에 해결책을 제시하고자 한다.

스마트폰의 어플리케이션 업데이트 패턴을 고려한 데이터 중복제거 기법 연구 (Deduplication Technique for Smartphone Application Update Scenario)

  • 박대준;최동수;신동군
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.364-366
    • /
    • 2012
  • 스마트폰의 어플리케이션은 어플리케이션 생태계의 발전에 따라 그 수가 많아지고, 업데이트 또한 잦아졌다. 어플리케이션의 업데이트는 낸드 플래시 메모리에 이전 버전을 삭제하고, 새로운 버전의 어플리케이션에 대한 쓰기 명령을 내린다. 따라서 사용자는 낸드 플래시 메모리에서의 상대적으로 느린 쓰기 명령에 의해 스마트폰의 성능의 저하를 느끼고 낸드 플래시 메모리는 반복되는 지우기/쓰기 동작에 의해 수명이 단축된다. 본 논문에서는 업데이트 되는 스마트폰 어플리케이션 데이터가 이전 버전과 큰 차이가 없다는 것에 착안하여 데이터 중복제거를 통해 업데이트 성능을 향상시키고 낸드 플래시 메모리의 수명을 향상시키는 기법을 제안하고 있으며, 실험을 통해서 어플리케이션들에 대한 중복 제거율을 관찰하였다.

가상화 환경에서 페이지 캐시 정보를 이용한 메모리 중복제거 기법에 관한 연구 (A Study on Memory Deduplication using Page Cache Information in Virtualization Environment)

  • 이세호;김인혁;엄영익
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.149-151
    • /
    • 2012
  • 서버가상화는 제한된 컴퓨팅 자원을 이용하여 다수의 운영체제를 가동시키는 기술이다. 한정된 컴퓨팅 자원을 이용하는 가상화 기술은 메모리 공간 부족이라는 문제를 야기했다. 이를 해결하기 위한 메모리 중복제거 기술들이 소개되고 있다. 그러나 많은 논문들 호스트와 가상 머신간의 메모리 사용 정보 부족으로 인해 많은 오버헤드를 가지고 메모리 중복제거 기술을 제공하고 있다. 본 논문은 메모리 공유 비중이 가장 큰 가상 머신의 페이지 캐시 정보를 제공하는 파일 시스템을 기반으로 페이지 스캐닝을 통한 효율적인 메모리 중복제거 기법을 제안한다.