DOI QR코드

DOI QR Code

캐시 메모리의 유용성을 높이는 동적 선인출 필터링 기법

A Dynamic Prefetch Filtering Schemes to Enhance Usefulness Of Cache Memory

  • 전영숙 (충북대학교 대학원 컴퓨터과학과) ;
  • 이병권 (충북대학교 전자계산대학원) ;
  • 이춘희 (충북대학교 일반대학원 전자계산) ;
  • 김석일 (충북대학교 전기전자컴퓨터공학부) ;
  • 전중남 (충북대학교 전기전자컴퓨터공학부)
  • 발행 : 2006.04.01

초록

캐시 선인출 기법은 메모리 참조에 따른 지연시간을 줄이는 효과적인 방법이다. 그러나 너무 적극적으로 선인출할 경우에 캐시 오염을 유발시켜 선인출에 의한 장점을 상쇄시킬 뿐만 아니라 버스 트래픽을 증가시켜 전체 성능의 저하를 가져 올 수 있다. 본 연구에서는 선인출로 인한 캐시의 오염을 줄이기 위해 필터 테이블을 참조하여 선인출 명령을 수행할 지의 여부를 동적으로 판단하는 선인출 필터링 기법을 제시한다. 본 논문에서는 먼저 기존 연구에서의 문제점을 분석하기 위해 선인출 해싱 테이블 lbitSC 기법을 보였는데, 이 기법은 기존 연구와 같이 N:1 매핑을 사용하는 반면, 각 엔트리의 값을 1비트로 하여 두 가지 상태값을 갖도록 하였다. 비교 연구를 위해 완전 블록주소 테이블 기법을 제시하여 비교 기준으로 사용하였다. 마지막으로 본 논문의 주 아이디어인 정교한 필터링을 위한 선인출 블록주소 참조 테이블 기법을 제안하였다. 이 구조는 선인출 해싱 테이블 1bitSC기법과 같은 테이블 길이를 가지며, 각 엔트리의 내용은 완전 블록주소 테이블 기법과 같은 항목을 가지도록 하여 최근에 미 사용된 데이터의 블록주소가 필터 테이블의 하나의 엔트리와 대응되도록 1:1 매핑을 하였다. 일반적으로 많이 사용되는 선인출 기법과, 일반 벤치마크 프로그램과 멀티미디어 벤치마크 프로그램들에 대하여 캐시의 매개변수들을 변화시켜가면서 실험을 하였다. PBALT기법은 필터링 하지 않은 경우에 비해 최대 22% 향상된 결과를 보이고, 기존 PHT2bSC 기법과 비교하여 캐시 미스율이 7.9% 감소하였다. 메모리 참조 지연 시간(MADT)은 제안하는 PBALT 기법이 기존 연구에 비해 6.1% 감소하여 전체 수행 시간에 있어서 성능이 향상되었다.

The prefetching technique is an effective way to reduce the latency caused memory access. However, excessively aggressive prefetch not only leads to cache pollution so as to cancel out the benefits of prefetch but also increase bus traffic leading to overall performance degradation. In this thesis, a prefetch filtering scheme is proposed which dynamically decides whether to commence prefetching by referring a filtering table to reduce the cache pollution due to unnecessary prefetches In this thesis, First, prefetch hashing table 1bitSC filtering scheme(PHT1bSC) has been shown to analyze the lock problem of the conventional scheme, this scheme such as conventional scheme used to be N:1 mapping, but it has the two state to 1bit value of each entries. A complete block address table filtering scheme(CBAT) has been introduced to be used as a reference for the comparative study. A prefetch block address lookup table scheme(PBALT) has been proposed as the main idea of this paper which exhibits the most exact filtering performance. This scheme has a length of the table the same as the PHT1bSC scheme, the contents of each entry have the fields the same as CBAT scheme recently, never referenced data block address has been 1:1 mapping a entry of the filter table. On commonly used prefetch schemes and general benchmarks and multimedia programs simulates change cache parameters. The PBALT scheme compared with no filtering has shown enhanced the greatest 22%, the cache miss ratio has been decreased by 7.9% by virtue of enhanced filtering accuracy compared with conventional PHT2bSC. The MADT of the proposed PBALT scheme has been decreased by 6.1% compared with conventional schemes to reduce the total execution time.

키워드

참고문헌

  1. A. J. Smith, 'Cache Memories,' ACM Computing Surveys, 14:473-530, Sep., 1982 https://doi.org/10.1145/356887.356892
  2. N. P. Jouppi, 'Improving directed-mapped cache performance by the addition of a small fully-associative cache and prefetch buffers,' Proc. of the 17th Annual International Symposium on Computer Architecture, pp. 364-373, May, 1990
  3. D. Joseph and D. Grunwald, 'Prefetching Using Markov Predictors,' IEEE Trans. on computers, Vol.48, No.2, Feb., 1999 https://doi.org/10.1109/12.752653
  4. D. joshep and D. Grunwald, 'Prefetching Using Markov Predictors,' in proc. Of the 24th Annual IntI. Symp, On Computer Architecture, pp.252-263, June, 1997 https://doi.org/10.1145/264107.264207
  5. J. Kim, K. V. Palem and W-F. Wong, 'A Framework for Data Prefetching using Off-line Training of Markovian Predictors,' in Proc. IEEE Intl. Conf. on Computer Design (ICCD) , pp.340-347, Sep., 2002 https://doi.org/10.1109/ICCD.2002.1106792
  6. G. Hariprakash, R. Achutharaman, A. R. Omondi, 'DSTRIDE : Data-cache miss-address-based stride prefetching scheme for multimedia processors,' 6th Australasian Computer Systems Architecture Conference (AustCSAC'01), pp.62-70, Jan., 29-30, 2001 https://doi.org/10.1109/ACAC.2001.903360
  7. Y. Solihin, J. Lee and J. Torrellas, 'Correlation Prefetching with a User-Level Memory Thread,' IEEE Trans. Computers, Vol.14, No.6, June, 2003
  8. J. L. Baer and T-Fu Chen, 'An effective on-chip preloading scheme to reduce data access penalty,' In Proceedings of Supercomputing '91, pp.176-186, Nov., 1991 https://doi.org/10.1145/125826.125932
  9. T-Fu Chen and J-L Baer, 'Effective Hardware-Based data prefetching for High-Performance Processors,' IEEE Trans. Computers, Vol.44, No.5, pp.609-623, May, 1995 https://doi.org/10.1109/12.381947
  10. V. Srinivasan, E. S. Davidson and G. S. Tyson, 'A Prefetch Taxonomy,' IEEE Trans. Computers, Vol.53, No.2, pp.126-140, Feb., 2004 https://doi.org/10.1109/TC.2004.1261824
  11. X. Zhuang and H-H S. Lee, 'Hardware-based Cache Pollution Filtering Mechanism for Aggressive Prefetches,' in Proc. IEEE Int. conf. on Parallel Processing, pp.286-293, Oct., 2003 https://doi.org/10.1109/ICPP.2003.1240591
  12. A. Srivastava and A. Eustace, 'ATOM : A System for Building Customized Program Analysis Tools,' Proceedings of the ACM SIGPLAN 94, pp.196-205, 1994 https://doi.org/10.1145/178243.178260
  13. M. D. Hill, 'Dinero III Cache Simulator,' Technical Report, Department Computer Science, University of Wisconsin, Madison. 1990
  14. Mediabenchmark program : http://cares.icsl.ucla.edu/appications.html
  15. SpecInt2000 benchmark program: http://www.spec.org/osg/cpu2000/CINT2000
  16. J. H. Lee, S. W. Jeong, S. D. Kim and C. C. Weems, 'An Intelligent Cache System with Hardware Prefetching for High Performance,' IEEE Trans. on computers, Vo1.52, No.5, May, 2003 https://doi.org/10.1109/TC.2003.1197127