• Title, Summary, Keyword: 캐시실패

Search Result 28, Processing Time 0.036 seconds

PR-Tree: An Extended R-Tree Indexing Method using Prefetching in Main Memory (PR-Tree: 메인 메모리에서 선반입을 적용한 확장된 R-tree 색인 기법)

  • Kang, Hong-Koo;Kim, Dong-O;Hong, Dong-Sook;Han, Ki-Joon
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • /
    • pp.123-128
    • /
    • 2003
  • 최근 프로세서와 메인 메모리간의 속도 차이가 커지면서 캐시 실패가 메인 메모리에서 동작하는 R-Tree의 성능 저하에 미치는 영향이 커짐에 따라 캐시 실패를 줄여 캐시 성능을 개선하려는 연구가 많이 진행되고 있다. 일반적인 캐시 성능 개선 방법은 엔트리 정보를 줄설 노드에 더 않은 엔트리를 저장함으로써 펜-아웃(fanout)을 증가시키고 캐시 실패를 최소화한다. 그러나 이러한 방법은 엔트리 정보를 줄이는 추가 연산으로 인해 갱신 성능이 떨어지고, 노드간 이동시 발생하는 캐시 실패는 여전히 해결하지 못하고 있다. 본 논문은 이를 해결하기 위해 선반입(prefetching)을 적용한 확장된 R-Tree인 PR-tree(Prefetching R-Tree)를 제안하고 평가하였다 PR-Tree는 펜-아웃을 증가시키고 트리의 높이를 낮추기 위해 실제 캐시 라인의 정수 배인 노드를 생성하고, 선반입을 적용하여 노드 캐시로 인한 메모리 지연을 최소화하였다. 또한 접근할 노드를 선반입하여 노드간 이동시 발생하는 캐시 실패도 최소화하였다. PR-Tree는 실험에서 R-Tree보다 검색 연산에서 최대 38%의 성능 향상을 보였으며, 갱신 연산에서도 최대 30%의 성능 향상을 보였다.

  • PDF

The low-power cache design for embedded systems (내장형 시스템을 위한 저전력 캐시 설계)

  • Jung, Hoi-Tae;Suh, Hyo-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.532-535
    • /
    • 2008
  • 내장형 시스템에서 캐시 메모리는 시스템의 성능과 전력 소모에 매우 큰 비중을 차지한다. 일반적인 내장형 시스템에 적용되는 집합 연관 구조 캐시는 모든 웨이에 전력을 공급해야 하므로 전력 소모 효율성이 매우 낮다. 이러한 단점을 보완하기 위해 순차 접근 캐시는 데이터가 존재하는 하나의 캐시만 항상 전력을 공급하게 하는 구조를 제안하지만 모든 작업에 1사이클이 더 소모되는 단점을 갖는다. 캐시 웨이 예측 기법은 적중 시 1사이클의 시간에 1개의 웨이에 만 전력을 공급하게 하는 최상의 구조를 갖지만 적중 실패 시 일반적인 집합 연관 구조보다 1사이클이 더 소모되고 똑같은 전력 소비를 가져오는 단점을 갖는다. 본 논문에서는 이 두 구조의 절충안을 통해 데이터 적중 시 웨이 예측 기법과 같은 성능을 가지며 실패 시에도 순차 접근 캐시와 동일한 성능을 보이는 새로운 내장형 시스템을 위한 저전력 캐시 구조를 제안한다.

  • PDF

Efficient Vertical Partitioning in Main Memory Databases (주 메모리 데이타베이스에서의 효율적인 테이블 수직 분할)

  • 박현진;차재혁;송병호;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.207-209
    • /
    • 2000
  • 주 메모리 데이터베이스 환경에서는 메모리 접근이 성능상의 병목으로 작용하므로 캐시접근 실패를 줄이는 것이 중요하다. 본 논문에서는 데이터베이스 디자인 단계에서 캐시를 고려하여 테이블을 수직 분할을 결정하는 방법을 제안한다. 캐시 접근 실패 횟수를 기반으로 하여 질의처리비용을 예상하는 비용식을 제안하고, 이를 최소로 하는 테이블 수직 분할을 찾는 휴리스틱을 제안한다.

  • PDF

Filter Cache Predictor Using Mode Selection Bit (모드 선택 비트를 사용한 필터 캐시 예측기)

  • Kwak, Jong-Wook
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.46 no.5
    • /
    • pp.1-13
    • /
    • 2009
  • Filter cache has been introduced as one solution of reducing cache power consumption. More than 50% of the power reduction results from the filter cache, whereas more than 20% of the performance is compromised. To minimize the performance degradation of the filter cache, the predictive filter cache has been proposed. In this paper, we review the previous filter cache predictors and analyze the problems of the solutions. As a result, we found main problems that cause prediction misses in previous filter cache schemes and, to resolve the problems, this paper proposes a new prediction policy. In our scheme, some reference bit entries, called MSBs, are inserted into filter cache and BTB, to adaptively control the filter cache access. In simulation parts, we use a modified SimpleScalar simulator with MiBench benchmark programs to verify the proposed filter cache. The simulation result shows in average 5% performance improvement, compared to previous ones.

An Extended R-Tree Indexing Method using Prefetching in Main Memory (메인 메모리에서 선반입을 사용한 확장된 R-Tree 색인 기법)

  • Kang, Hong-Koo;Kim, Dong-O;Hong, Dong-Sook;Han, Ki-Joon
    • Journal of Korea Spatial Information System Society
    • /
    • v.6 no.1
    • /
    • pp.19-29
    • /
    • 2004
  • Recently, studies have been performed to improve the cache performance of the R-Tree in main memory. A general mothed to improve the cache performance of the R-Tree is to reduce size of an entry so that a node can store more entries and fanout of it can increase. However, this method generally requites additional process to reduce information of entries and do not support incremental updates. In addition, the cache miss always occurs on moving between a parent node and a child node. To solve these problems efficiently, this paper proposes and evaluates the PR-Tree that is an extended R-Tree indexing method using prefetching in main memory. The PR-Tree can produce a wider node to optimize prefetching without additional modifications on the R-Tree. Moreover, the PR-Tree reduces cache miss rates that occur in moving between a parent node and a child node. In our simulation, the search performance, the update performance, and the node split performance of the PR-Tree improve up to 38%. 30%, and 67% respectively, compared with the original R-Tree.

  • PDF

High-Performance FFT Using Data Reorganization (데이터 재구성 기법을 이용한 고성능 FFT)

  • Park Neungsoo;Choi Yungho
    • The KIPS Transactions:PartA
    • /
    • v.12A no.3
    • /
    • pp.215-222
    • /
    • 2005
  • The efficient utilization of cache memories is a key factor in achieving high performance for computing large signal transforms. Nonunit stride access in computation of large DFTs causes cache conflict misses, thereby resulting in poor cache performance. It leads to a severe degradation in overall performance. In this paper, we propose a dynamic data layout approach considering the memory hierarchy system. In our approach, data reorganization is performed between computation stages to reduce the number of cache misses. Also, we develop an efficient search algorithm to determine the optimal tree with the minimum execution time among possible factorization trees considering the size of DFTs and the data access stride. Our approach is applied to compute the fast Fourier Transform (FFT). Experiments were performed on Pentium 4, $Athlon^{TM}$ 64, Alpha 21264, UtraSPARC III. Experiment results show that our FFT achieve performance improvement of up to 3.37 times better than the previous FFT packages.

Improving Instruction Cache Performance by Dynamic Management of Cache-Image (캐시 이미지의 동적 관리 방법을 이용한 명령어 캐시 성능 개선)

  • Suh, Hyo-Joong
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.9
    • /
    • pp.564-571
    • /
    • 2017
  • The burst loading of a pre-created cache-image is an effective method to reduce the instruction cache misses in the early stage of the program execution. It is useful to alleviate the performance degradation as well as the energy inefficiency, which is induced by the concentrated cold misses at the instruction cache. However, there are some defects, including software overhead on the compiler and installer. Furthermore, there are several mismatches as a result of the dynamic properties for specific applications. This paper addresses these issues and proposes a cache-image maintenance/recreation policy that can conduct dynamic management using a hardware-assisted method. The results of the simulation show that the proposed method can maintain the cache-image with a proper size and validity.

Prefetch R-tree: A Disk and Cache Optimized Multidimensional Index Structure (Prefetch R-tree: 디스크와 CPU 캐시에 최적화된 다차원 색인 구조)

  • Park Myung-Sun
    • The KIPS Transactions:PartD
    • /
    • v.13D no.4
    • /
    • pp.463-476
    • /
    • 2006
  • R-trees have been traditionally optimized for the I/O performance with the disk page as the tree node. Recently, researchers have proposed cache-conscious variations of R-trees optimized for the CPU cache performance in main memory environments, where the node size is several cache lines wide and more entries are packed in a node by compressing MBR keys. However, because there is a big difference between the node sizes of two types of R-trees, disk-optimized R-trees show poor cache performance while cache-optimized R-trees exhibit poor disk performance. In this paper, we propose a cache and disk optimized R-tree, called the PR-tree (Prefetching R-tree). For the cache performance, the node size of the PR-tree is wider than a cache line, and the prefetch instruction is used to reduce the number of cache misses. For the I/O performance, the nodes of the PR-tree are fitted into one disk page. We represent the detailed analysis of cache misses for range queries, and enumerate all the reasonable in-page leaf and nonleaf node sizes, and heights of in-page trees to figure out tree parameters for best cache and I/O performance. The PR-tree that we propose achieves better cache performance than the disk-optimized R-tree: a factor of 3.5-15.1 improvement for one-by-one insertions, 6.5-15.1 improvement for deletions, 1.3-1.9 improvement for range queries, and 2.7-9.7 improvement for k-nearest neighbor queries. All experimental results do not show notable declines of the I/O performance.

Improved Cache-hot Page Allocation Technique for Reducing Page Initialization Latency of Linux Based Systems (리눅스 기반 시스템의 페이지 초기화 지연 단축을 위한 향상된 캐시-핫 페이지 할당 기법)

  • Yang, Seokwoo;Noh, Sunhyeon;Hong, Seongsoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • /
    • pp.415-418
    • /
    • 2019
  • 최근 사용자 대화형(user-interactive) 응용들은 OS에게 많은 양의 메모리를 빈번하게 요구한다는 특징을 보인다. 응용의 메모리 할당 요청이 발생하면 OS는 할당할 페이지의 초기화 작업을 필수적으로 수행하는데, 빈번하게 발생하는 페이지 초기화 작업이 응용의 성능을 저하시키고 있다. 기존 리눅스 기반 시스템은 페이지 초기화 지연을 단축하기 위해 CPU의 캐시에 매핑되어 있어서 초기 값을 빠르게 쓸 수 있는 페이지인 캐시-핫(cache-hot) 페이지를 우선적으로 할당한다. 하지만 기존 리눅스는 각 코어별로 캐시-핫 페이지를 인식하고 관리하며, 다른 코어가 관리하는 캐시-핫 페이지에는 접근할 수 없다. 이러한 정책 때문에 다른 코어가 공유 캐시(shared cache)에 매핑된 캐시-핫 페이지를 관리하고 있더라도, 이를 할당받지 못하고 캐시-콜드(cache-cold) 페이지를 할당받는 경우가 발생한다. 본 논문에서는 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 별도로 인식하고 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 모든 코어가 활용할 수 있게 하여, 응용이 캐시-핫 페이지를 할당받을 확률을 기존 기법보다 높이는 향상된 캐시-핫 페이지 할당 기법을 제안한다. 제안된 기법은 페이지 할당 요청이 발생하면 먼저 각 코어의 사유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 우선적으로 할당하고, 할당에 실패하면 공유 캐시에 매핑된 것으로 추정되는 캐시-핫 페이지를 할당한다. 이를 통해 캐시-핫 페이지를 할당받을 확률을 기존 기법보다 높이고, 결과적으로 평균 페이지 초기화 지연을 단축한다. 제안된 기법을 리눅스 커널 4.18.10버전 기반 환경에서 구현하여 실험한 결과, 평균 페이지 초기화 지연이 기존 리눅스 시스템과 비교하여 약 7% 단축되었다.

  • PDF

An On-chip Cache and Main Memory Compression System Optimized by Considering the Compression rate Distribution of Compressed Blocks (압축블록의 압축률 분포를 고려해 설계한 내장캐시 및 주 메모리 압축시스템)

  • Yim, Keun-Soo;Lee, Jang-Soo;Hong, In-Pyo;Kim, Ji-Hong;Kim, Shin-Dug;Lee, Yong-Surk;Koh, Kern
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.31 no.1_2
    • /
    • pp.125-134
    • /
    • 2004
  • Recently, an on-chip compressed cache system was presented to alleviate the processor-memory Performance gap by reducing on-chip cache miss rate and expanding memory bandwidth. This research Presents an extended on-chip compressed cache system which also significantly expands main memory capacity. Several techniques are attempted to expand main memory capacity, on-chip cache capacity, and memory bandwidth as well as reduce decompression time and metadata size. To evaluate the performance of our proposed system over existing systems, we use execution-driven simulation method by modifying a superscalar microprocessor simulator. Our experimental methodology has higher accuracy than previous trace-driven simulation method. The simulation results show that our proposed system reduces execution time by 4-23% compared with conventional memory system without considering the benefits obtained from main memory expansion. The expansion rates of data and code areas of main memory are 57-120% and 27-36%, respectively.