• 제목, 요약, 키워드: 캐시실패

검색결과 28건 처리시간 0.037초

PR-Tree: 메인 메모리에서 선반입을 적용한 확장된 R-tree 색인 기법 (PR-Tree: An Extended R-Tree Indexing Method using Prefetching in Main Memory)

  • 강홍구;김동오;홍동숙;한기준
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • /
    • pp.123-128
    • /
    • 2003
  • 최근 프로세서와 메인 메모리간의 속도 차이가 커지면서 캐시 실패가 메인 메모리에서 동작하는 R-Tree의 성능 저하에 미치는 영향이 커짐에 따라 캐시 실패를 줄여 캐시 성능을 개선하려는 연구가 많이 진행되고 있다. 일반적인 캐시 성능 개선 방법은 엔트리 정보를 줄설 노드에 더 않은 엔트리를 저장함으로써 펜-아웃(fanout)을 증가시키고 캐시 실패를 최소화한다. 그러나 이러한 방법은 엔트리 정보를 줄이는 추가 연산으로 인해 갱신 성능이 떨어지고, 노드간 이동시 발생하는 캐시 실패는 여전히 해결하지 못하고 있다. 본 논문은 이를 해결하기 위해 선반입(prefetching)을 적용한 확장된 R-Tree인 PR-tree(Prefetching R-Tree)를 제안하고 평가하였다 PR-Tree는 펜-아웃을 증가시키고 트리의 높이를 낮추기 위해 실제 캐시 라인의 정수 배인 노드를 생성하고, 선반입을 적용하여 노드 캐시로 인한 메모리 지연을 최소화하였다. 또한 접근할 노드를 선반입하여 노드간 이동시 발생하는 캐시 실패도 최소화하였다. PR-Tree는 실험에서 R-Tree보다 검색 연산에서 최대 38%의 성능 향상을 보였으며, 갱신 연산에서도 최대 30%의 성능 향상을 보였다.

  • PDF

내장형 시스템을 위한 저전력 캐시 설계 (The low-power cache design for embedded systems)

  • 정회태;서효중
    • 한국정보처리학회:학술대회논문집
    • /
    • /
    • pp.532-535
    • /
    • 2008
  • 내장형 시스템에서 캐시 메모리는 시스템의 성능과 전력 소모에 매우 큰 비중을 차지한다. 일반적인 내장형 시스템에 적용되는 집합 연관 구조 캐시는 모든 웨이에 전력을 공급해야 하므로 전력 소모 효율성이 매우 낮다. 이러한 단점을 보완하기 위해 순차 접근 캐시는 데이터가 존재하는 하나의 캐시만 항상 전력을 공급하게 하는 구조를 제안하지만 모든 작업에 1사이클이 더 소모되는 단점을 갖는다. 캐시 웨이 예측 기법은 적중 시 1사이클의 시간에 1개의 웨이에 만 전력을 공급하게 하는 최상의 구조를 갖지만 적중 실패 시 일반적인 집합 연관 구조보다 1사이클이 더 소모되고 똑같은 전력 소비를 가져오는 단점을 갖는다. 본 논문에서는 이 두 구조의 절충안을 통해 데이터 적중 시 웨이 예측 기법과 같은 성능을 가지며 실패 시에도 순차 접근 캐시와 동일한 성능을 보이는 새로운 내장형 시스템을 위한 저전력 캐시 구조를 제안한다.

  • PDF

주 메모리 데이타베이스에서의 효율적인 테이블 수직 분할 (Efficient Vertical Partitioning in Main Memory Databases)

  • 박현진;차재혁;송병호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • /
    • pp.207-209
    • /
    • 2000
  • 주 메모리 데이터베이스 환경에서는 메모리 접근이 성능상의 병목으로 작용하므로 캐시접근 실패를 줄이는 것이 중요하다. 본 논문에서는 데이터베이스 디자인 단계에서 캐시를 고려하여 테이블을 수직 분할을 결정하는 방법을 제안한다. 캐시 접근 실패 횟수를 기반으로 하여 질의처리비용을 예상하는 비용식을 제안하고, 이를 최소로 하는 테이블 수직 분할을 찾는 휴리스틱을 제안한다.

  • PDF

모드 선택 비트를 사용한 필터 캐시 예측기 (Filter Cache Predictor Using Mode Selection Bit)

  • 곽종욱
    • 전자공학회논문지CI
    • /
    • v.46 no.5
    • /
    • pp.1-13
    • /
    • 2009
  • 캐시 에너지의 소비 전력을 줄이기 위해 필터 캐시가 제안되었다. 이와 같은 필터 캐시의 사용으로 인해 50% 이상의 전력 사용 감소 효과를 가져왔으나, 상대적으로 시스템 성능은 평균 20% 가량 감소되었다. 필터 캐시의 사용으로 인한 이 같은 성능 감소를 최소화하기 위해서, 여러 가지 형태의 필터 캐시 예측가 제안 되었다. 본 논문에서는 기존에 제안된 주요 필터 캐시 예측 모델들을 소개하며, 각각의 방식에 있어서의 핵심 특징 및 해당 방식의 문제점을 분석한다. 분석 결과, 필터 캐시의 참조 실패를 야기하는 기존 방식의 중요한 문제점을 확인하였으며, 이를 바탕으로 본 논문에서는 개선된 형태의 새로운 필터 캐시 예측기 모델을 제안한다. 제안된 방식은 MSB라 불리는 참조 비트를 고안하여 이를 기존의 필터캐시와 BTB에 새롭게 활용한다. 본 논문에서 제안된 방식의 성능을 검증하기 위해 SimpleScalar 시뮬레이터와 MiBench 응용 프로그램을 활용하여 모의실험을 수행하였다. 실험 결과 제안된 방식은 기존 방식 대비, 필터 캐시 예측 실패율, 필터 캐시 활용률 및 전력 소모량 시간 지연 등 모든 면에서 평균 5%의 성능 향상을 가져 왔다.

메인 메모리에서 선반입을 사용한 확장된 R-Tree 색인 기법 (An Extended R-Tree Indexing Method using Prefetching in Main Memory)

  • 강홍구;김동오;홍동숙;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • v.6 no.1
    • /
    • pp.19-29
    • /
    • 2004
  • 최근 메인 메모리 기반에서 R-Tree의 성능을 개선하기 위해 캐시를 고려한 색인 구조들이 제안되었다. 이들 색인 구조의 일반적인 캐시 성능 개선 방법은 엔트리 크기를 줄여 펜-아웃(fanout)을 증가시키고 하나의 노드에 더 많은 엔트리를 저장함으로써 캐시 실패를 최소화하는 것이다. 그러나 이러한 방법은 갱신시 줄어든 엔트리 정보를 복원하는 추가 연산으로 갱신 성능이 떨어지고, 노드간 이동시 발생하는 캐시 실패는 여전히 성능 저하의 큰 문제가 되고 있다. 본 논문은 이러한 문제점을 개선하기 위해 메인 메모리에서 R-Tree에 선반입을 적용한 확장된 메인 메모리 기반 R-Tree 색인 기법인 PR-Tree를 제안하고 평가하였다. PR-Tree는 R-Tree의 근본적인 변형없이 노드 크기를 선반입에 최적화되도록 확장하고, 노드간 이동시 자식 노드를 선반입하여 캐시 실패를 최소화하였다. PR-Tree는 실험에서 R-Tree보다 검색 연산에서는 최대 38%의 성능 향상을 보였고, 갱신 연산에서는 최대 30%의 성능 향상을 보였고, 또한 노드 분할 연산에서는 최대 67%의 성능 향상을 보였다.

  • PDF

데이터 재구성 기법을 이용한 고성능 FFT (High-Performance FFT Using Data Reorganization)

  • 박능수;최영호
    • 정보처리학회논문지A
    • /
    • v.12A no.3
    • /
    • pp.215-222
    • /
    • 2005
  • 대규모 신호처리 변환을 신속하게 처리하기 위해서는 캐시 메모리를 효과적으로 이용하는 것이 중요하다. 대규모 DFT 계산에서는 stride 액세스로 인한 캐시 충돌 적중 실패로 인하여 캐시 성능이 상당히 떨어지게 되고 이로 인해 전체적인 성능이 저하하게 된다. 본 논문에서는 메모리 계층 구조를 고려한 동적 데이터 재배열(Dynamic Data Layout) 방법을 개발하였다. 제시된 방법은 stride를 가지는 계산 단계(computation stage) 사이에 데이터를 동적으로 재구성을 하여 캐시 적중 실패를 줄이는 것이다. 또한 트리 구조 FFT 계산 방법에서 FFT 크기와 데이터 stride 액세스를 기초로 하여 가능한 모든 인수분해 트리 중에서 최소 실행시간을 가지는 최적의 인수 분해트리를 찾아내는 탐색 알고리즘을 개발하였다. 성능 향상을 확인하기 위하여 제시된 방법을 기존의 FFT 알고리즘에 적용하여 Pentium 4, Alpha 21264, $Athlon^{TM}$ 64, UltraSPARC III에서 실험하였다. 실험 결과에 따르면 기존의 FFT 패키지들과 비교하여 제시된 방법을 적용한 FFT가 최대 3.37배의 성능 향상을 얻을 수 있었다.

캐시 이미지의 동적 관리 방법을 이용한 명령어 캐시 성능 개선 (Improving Instruction Cache Performance by Dynamic Management of Cache-Image)

  • 서효중
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • v.23 no.9
    • /
    • pp.564-571
    • /
    • 2017
  • 프로세스 구동시마다 캐시 이미지를 메모리로부터 버스트 로딩하여 초기 캐시 실패를 줄이는 방법은 프로그램의 시작으로부터 초기화 부분의 지연을 줄이고 에너지 소모를 줄이는 데 효과적이다. 하지만 로딩에 사용하기 위한 적절한 캐시 이미지는 컴파일러와 인스톨러 등 소프트웨어적인 접근 방법을 이용하여 적절한 캐시 이미지를 생성하는 과정이 필요하며, 동적인 수행 특성을 보이는 프로세스의 경우 비효율적이다. 본 논문은 이러한 손실에 주목하여, 하드웨어를 부가하여 캐시 이미지를 동적으로 생성하고 관리하는 방법을 제안하고자 한다. 시뮬레이션 결과에 따르면 제안한 방법을 사용할 경우 프로그램의 캐시 필요량에 따른 적절한 이미지 크기를 유지할 수 있어 기존의 캐시 이미지 로딩 기법을 더욱 효율적으로 개선할 수 있었다.

Prefetch R-tree: 디스크와 CPU 캐시에 최적화된 다차원 색인 구조 (Prefetch R-tree: A Disk and Cache Optimized Multidimensional Index Structure)

  • 박명선
    • 정보처리학회논문지D
    • /
    • v.13D no.4
    • /
    • pp.463-476
    • /
    • 2006
  • R-tree는 일반적으로 트리 노드의 크기를 디스크 페이지의 크기와 같게 함으로써 I/O 성능이 최적화 되도록 구현한다. 최근에는 주메모리 환경에서 CPU 캐시 성능을 최적화하는 R-tree의 변형이 개발되었다. 이는 노드의 크기를 캐시 라인 크기의 수 배로 하고 MBR에 저장되는 키를 압축하여 노드 하나에 더 많은 엔트리를 저장함으로써 성능을 높였다. 그러나, 디스크 최적 R-tree와 캐시 최적 R-tree의 노드 크기 사이에는 수십-수백 바이트와 수-수십 킬로바이트라는 큰 차이가 있으므로, I/O 최적 R-tree는 캐시 성능이 나쁘고 캐시 최적 R-tree는 디스크 I/O 성능이 나쁜 문제점을 가지고 있다. 이 논문에서는 CPU 캐시와 디스크 I/O에 모두 최적인 R-tree, PR-tree를 제안한다. 캐시 성능을 위해 PR-tree 노드의 크기를 캐시 라인 크기보다 크게 만든 다음 CPU의 선반입(prefetch) 명령어를 이용하여 캐시 실패 횟수를 줄이고, 트리 노드를 디스크 페이지에 낭비가 적도록 배치함으로써 디스크 I/O 성능도 향상시킨다. 또한, 이 논문에서는 PR-tree에서 검색 연산을 수행하는데 드는 캐시 실패 비용을 계산하는 분석 방법을 제시하고, 최적의 캐시와 I/O 성능을 보이는 PR-tree를 구성하기 위해, 가능한 크기의 내부 단말 노드, 중간 노드를 갖는 PR-tree 생성하여 성능을 비교하였다. PR-tree는 디스크 최적 R-tree보다 삽입 연산은 3.5에서 15.1배, 삭제 연산은 6.5에서 15.1배, 범위 질의는 1.3에서 1.9배, k-최근접 질의는 2.7에서 9.7배의 캐시 성능 향상이 있었다. 모든 실험에서 매우 작은 I/O 성능 저하만을 보였다.

리눅스 기반 시스템의 페이지 초기화 지연 단축을 위한 향상된 캐시-핫 페이지 할당 기법 (Improved Cache-hot Page Allocation Technique for Reducing Page Initialization Latency of Linux Based Systems)

  • 양석우;노순현;홍성수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • /
    • pp.415-418
    • /
    • 2019
  • 최근 사용자 대화형(user-interactive) 응용들은 OS에게 많은 양의 메모리를 빈번하게 요구한다는 특징을 보인다. 응용의 메모리 할당 요청이 발생하면 OS는 할당할 페이지의 초기화 작업을 필수적으로 수행하는데, 빈번하게 발생하는 페이지 초기화 작업이 응용의 성능을 저하시키고 있다. 기존 리눅스 기반 시스템은 페이지 초기화 지연을 단축하기 위해 CPU의 캐시에 매핑되어 있어서 초기 값을 빠르게 쓸 수 있는 페이지인 캐시-핫(cache-hot) 페이지를 우선적으로 할당한다. 하지만 기존 리눅스는 각 코어별로 캐시-핫 페이지를 인식하고 관리하며, 다른 코어가 관리하는 캐시-핫 페이지에는 접근할 수 없다. 이러한 정책 때문에 다른 코어가 공유 캐시(shared cache)에 매핑된 캐시-핫 페이지를 관리하고 있더라도, 이를 할당받지 못하고 캐시-콜드(cache-cold) 페이지를 할당받는 경우가 발생한다. 본 논문에서는 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 별도로 인식하고 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 모든 코어가 활용할 수 있게 하여, 응용이 캐시-핫 페이지를 할당받을 확률을 기존 기법보다 높이는 향상된 캐시-핫 페이지 할당 기법을 제안한다. 제안된 기법은 페이지 할당 요청이 발생하면 먼저 각 코어의 사유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 우선적으로 할당하고, 할당에 실패하면 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 할당한다. 이를 통해 캐시-핫 페이지를 할당받을 확률을 기존 기법보다 높이고, 결과적으로 평균 페이지 초기화 지연을 단축한다. 제안된 기법을 리눅스 커널 4.18.10버전 기반 환경에서 구현하여 실험한 결과, 평균 페이지 초기화 지연이 기존 리눅스 시스템과 비교하여 약 7% 단축되었다.

  • PDF

압축블록의 압축률 분포를 고려해 설계한 내장캐시 및 주 메모리 압축시스템 (An On-chip Cache and Main Memory Compression System Optimized by Considering the Compression rate Distribution of Compressed Blocks)

  • 임근수;이장수;홍인표;김지홍;김신덕;이용석;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • v.31 no.1_2
    • /
    • pp.125-134
    • /
    • 2004
  • 최근에 프로세서-메모리간 성능격차 문제를 완화하기 위하여 내장캐시의 접근실패율을 낮추고 메모리 대역폭을 확장하는 내장캐시 압축시스템이 제안되었다. 내장캐시 압축시스템은 데이타를 압축해 저장함으로써 내장캐시의 실질적 저장공간을 확장하고, 메모리 버스에서 데이타를 압축해 전송함으로써 실질적 메모리 대역폭을 확장한다. 본 논문에서는 이와 같은 내장캐시 압축시스템을 확장해 기존의 주 메모리 압축시스템과 병합해 설계한 이종 메모리 압축시스템을 제안한다. 주 메모리의 기억공간을 효율적으로 확장하고, 내장캐시의 접근실패율을 낮추고, 메모리 대역폭을 확장하고, 압축캐시의 복원시간을 줄이고, 설계 복잡도를 낮추기 위하여 몇 가지 새로운 기법들을 제시한다. 제안하는 시스템과 비교대상 시스템의 성능은 슈퍼스칼라 구조의 마이크로프로세서 시뮬레이터를 수정하여 실행기반 시뮬레이션을 통해 검증한다. 본 논문에서 사용한 실험방법은 기존의 트레이스기반 시뮬레이션과 비교해 보다 높은 정확도를 갖는다. 실험결과 주 메모리 확장에 따른 이득을 고려하지 않은 경우에 제안하는 시스템은 일반 메모리시스템에 비하여 수행시간을 내장캐시의 크기에 따라 최대 4-23%가량 단축한다. 제안하는 시스템의 데이타 메모리와 코드 메모리의 확장비율은 각각 57-120%와 27-36%이다.