DOI QR코드

DOI QR Code

Multi-layer Caching Scheme Considering Sub-graph Usage Patterns

서브 그래프의 사용 패턴을 고려한 다중 계층 캐싱 기법

  • 유승훈 (충북대학교 정보통신공학과) ;
  • 정재윤 (충북대학교 정보통신공학과) ;
  • 최도진 (충북대학교 정보통신공학과) ;
  • 박재열 (충북대학교 정보통신공학과) ;
  • 임종태 (충북대학교 정보통신공학과) ;
  • 복경수 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Received : 2017.12.04
  • Accepted : 2018.01.11
  • Published : 2018.03.28

Abstract

Due to the recent development of social media and mobile devices, graph data have been using in various fields. In addition, caching techniques for reducing I/O costs in the process of large capacity graph data have been studied. In this paper, we propose a multi-layer caching scheme considering the connectivity of the graph, which is the characteristics of the graph topology, and the history of the past subgraph usage. The proposed scheme divides a cache into Used Data Cache and Prefetched Cache. The Used Data Cache maintains data by weights according to the frequently used sub-graph patterns. The Prefetched Cache maintains the neighbor data of the recently used data that are not used. In order to extract the graph patterns, their past history information is used. Since the frequently used sub-graphs have high probabilities to be reused, they are cached. It uses a strategy to replace new data with less likely data to be used if the memory is full. Through the performance evaluation, we prove that the proposed caching scheme is superior to the existing cache management scheme.

최근 소셜 미디어와 모바일 장비들의 발달로 인해 그래프 데이터들이 다양한 분야에서 활용되고 있다. 이와 함께 대용량 그래프 데이터 처리 과정에서 입출력 비용을 감소시키기 위한 캐싱 기법에 대한 연구들이 진행되고 있다. 본 논문에서는 그래프 토폴로지의 특징인 그래프의 연결성과 과거의 서브 그래프 사용 이력을 고려하여 다중 계층 캐싱 기법을 제안한다. 제안하는 기법은 캐시를 Used Data Cache와 Prefetched Cache로 구분한다. Used Data Cache는 자주 사용되는 서브 그래프 패턴에 따라 가중치를 부여하여 데이터를 캐싱하고 Prefetched Cache는 사용되지는 않았지만 최근 사용된 데이터의 주변 데이터들이 사용될 가능성이 높은 데이터를 캐싱한다. 그래프 패턴을 추출하기 위해 과거의 이력 정보를 활용하여 패턴을 추출하였다. 자주 사용되는 서브 그래프들이 다시 사용될 것을 예측하여 가중치를 부여하여 캐싱한다. 최근 사용된 데이터의 주변 데이터들이 사용 될 것을 예측하여 캐싱한다. 각각의 캐시에 캐싱된 데이터들을 관리하고 메모리가 가득 찰 경우 사용될 가능성이 낮은 데이터와 새로운 데이터를 교체하는 전략을 제안한다. 성능 평가를 통해 제안하는 캐싱 기법이 기존의 캐시 관리 기법에 비해 우수함을 증명한다.

Keywords

References

  1. A Cuzzocrea, F Furfaro, G. M. Mazzeo, and D. Sacca, "A grid framework for approximate aggregate query answering on summarized sensor network readings," Proc. OTM Workshops, pp.144-153, 2004.
  2. A. Fariha, C. F. Ahmed, C. K. Leung, S. M. Abdullah, and L. Cao, "Mining frequent patterns from human interactions in meetings using directed acyclic graphs," Proc. Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp.38-49, 2013.
  3. 임종태, 복경수, 유재수, "대용량 그래프 환경에서 스카이라인을 이용한 서브 그래프 유사도 측정 기법," 한국콘텐츠학회 종합학술대회, pp.47-48, 2017.
  4. G. Linden, B. Smith, and J. York, "Amazon.com recommendations: item-to-item collaborative filtering," IEEE Internet Computing, Vol.7, No.1, pp.76-80, 2003. https://doi.org/10.1109/MIC.2003.1167344
  5. Yunhong Zhou, Dennis Wilkinson, Robert Schreiber, and Rong Pan, "Large-Scale Parallel Collaborative Filtering for the Netflix Prize," Proc. International Conference on Algorithmic Aspects in Information and Management, pp.337-348, 2008.
  6. J. E. Gonzalez, Y. Low, and H. Gu, "PowerGraph: Distributed Graph-Parallel Computation on Natural Graphs," Proc. USENIX Symposium on Operating Systems Design and Implementation, pp.17-30, 2012.
  7. 서복일, 김재인, 황부현, "스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사," 한국콘텐츠학회논문지, 제 11권, 제1호, pp.56-64, 2011. https://doi.org/10.5392/JKCA.2011.11.1.056
  8. U. Gupta and L. Fegaras, "Distributed Incremental Graph Analysis," Proc. IEEE International Congress on BigData, pp.75-82, 2016.
  9. https://memcached.org/
  10. P Ran, W Zhou, and J Han, "NYNN: An In-Memory Distributed Storage System for massive graph analysis," Proc. International Conference on Advanced Computational Intelligence, pp.383-389, 2015.
  11. H. Aksu, M. Canim, Y. Chang, I. Korpeoglu, and O. Ulusoy, "Graph Aware Caching Policy for Distributed Graph Stores," Proc. International Conference on Cloud Engineering, pp.6-15, 2015.
  12. T. R. F'uzak, Analysis of cache replacement algorithms, Ph.D. dissertation, University of Massachusetts Amherst, 1985.
  13. R. Nishtala, H. Fugal, S. Grimm, M. Kwiatkowski, H. Lee, H. C. Li, R. McElroy, M. Paleczny, D. Peek, P. Saab, D. Stafford, T. Tung, and V. Venkataramani, "Scaling Memcache at Facebook," Proc. USENIX Symposium on Networked Systems Design and Implementation, pp.385-398, 2013.
  14. https://neo4j.com/docs/
  15. G. Malewicz, M. H. Austern, A. J. Bik, J. C. Dehnert, I. Horn, N. Leiser, and G. Czajkowski, "Pregel: a system for large-scale graph processing," Proc. ACM SIGMOD International Conference on Management of data, pp.135-146, 2010.
  16. P. Braun, J. J. Cameron, A. Cuzzocrea, F. Jiang, and C. K. Leung, "Effectively and Efficiently Mining Frequent Patterns from Dense Graph Streams on Disk," Proc. International Conference in Knowledge Based and Intelligent Information and Engineering Systems, pp.338-347, 2014.
  17. http://socialcomputing.asu.edu
  18. https://snap.stanford.edu/
  19. A. Mislove, M. Marcon, K. P. Gummadi, P. Druschel, and B. Bhattacharjee, "Measurement and Analysis of Online Social Networks," Proc. ACM SIGCOMM Internet Measurement Conference, pp.29-42, 2007.
  20. J. Han, J. Pei, and Y. Yin, "Mining Frequent Patterns without Candidate Generation," Proc. ACM SIGMOD International Conference on Management of Data, pp.1-12, 2000.
  21. N. Bronson, Z. Amsden, G. Cabrera, P. Chakka, P. Dimov, H. Ding, J. Ferris, A. Giardullo, S. Kulkarni, and H. C. Li, "Tao: Facebook's distributed data store for the social graph," Proc. USENIX Annual Technical Conference, pp.49-60, 2013.
  22. Han, Jiawei, Jian Pei, and Yiwen Yin, "Mining frequent patterns without candidate generation," Proc. ACM SIGMOD International Conference on Management of Data, pp.1-12, 2000.
  23. C. Borgelt, "An Implementation of the FP-growth Algorithm," Proc. International Workshop on Open Source Data Mining: Frequent Pattern Mining Implementations, pp.1-5, 2005.