DOI QR코드

DOI QR Code

An elastic distributed parallel Hadoop system for bigdata platform and distributed inference engines

동적 분산병렬 하둡시스템 및 분산추론기에 응용한 서버가상화 빅데이터 플랫폼

  • Received : 2015.08.17
  • Accepted : 2015.09.25
  • Published : 2015.09.30

Abstract

Inference process generates additional triples from knowledge represented in RDF triples of semantic web technology. Tens of million of triples as an initial big data and the additionally inferred triples become a knowledge base for applications such as QA(question&answer) system. The inference engine requires more computing resources to process the triples generated while inferencing. The additional computing resources supplied by underlying resource pool in cloud computing can shorten the execution time. This paper addresses an algorithm to allocate the number of computing nodes "elastically" at runtime on Hadoop, depending on the size of knowledge data fed. The model proposed in this paper is composed of the layered architecture: the top layer for applications, the middle layer for distributed parallel inference engine to process the triples, and lower layer for elastic Hadoop and server visualization. System algorithms and test data are analyzed and discussed in this paper. The model hast the benefit that rich legacy Hadoop applications can be run faster on this system without any modification.

시멘틱 웹 기술인 RDF 트리플로 표현된 지식을 추론 과정을 거치면 새로운 트리플들이 생성되어 나온다. 초기 입력된 수억개의 트리플로 구성된 빅데이터와 추가로 생성된 트리플 데이터를 바탕으로 질의응답과 같은 다양한 응용시스템이 만들어 진다. 이 추론기가 수행되는 과정에서 더 많은 컴퓨팅 리소스가 필요해 진다. 이 추가 컴퓨팅 리소스는 하부 클라우드 컴퓨팅의 리소스 풀로부터 공급받아 수행시간을 줄일 수 있다. 본 연구에서는 하둡을 이용하는 환경에서 지식의 크기에 따라 런타임에 동적으로 서버 컴퓨팅 노드를 증감 시키는 방법을 연구하였다. 상부는 응용계층이며, 중간부는 트리플들에 대한 분산병렬추론과 하부는 탄력적 하둡시스템 및 가상화 서버로 구성되는 계층적 모델을 제시한다. 이 시스템의 알고리즘과 시험성능의 결과를 분석한다. 하둡 상에 기 개발된 풍부한 응용소프트웨어들은 이 탄력적 하둡 시스템 상에서 수정 없이 보다 빨리 수행될 수 있는 장점이 있다.

Keywords

References

  1. Agarwal, S., Kandula, S., Bruno, N., Wu, M.C., Stoica, I. and Zhou, J. (2012). Re-optimizing data-parallel computing. In Proceedings of USENIX Symposium on Networked Systems Design and Implementation, San Jose, USA.
  2. Antoniou, G., Groth, P., Van Harmelen, F. and Hoekstra, R. (2012). A semantic web primer, 3rd Ed., The MIT Press, Cambridge, Massachusetts, London, England.
  3. Go, Y. and Kim, J. (2013). Bigdata processing and analysis using rhipe. Journal of the Korean Data & Information Science Society, 24, 975-987. https://doi.org/10.7465/jkdi.2013.24.5.975
  4. Lee, W. G., Kim, J. M. and Park, Y. T. (2014). (2014). Distributed table join for scalable RDFS reasoning on cloud computing environment. Journal of KIISE, 41, 674-685. https://doi.org/10.5626/JOK.2014.41.9.674
  5. Lee, W. G and Park, Y. T. (2015). ABox realization reasoning in distributed in-memory system. Journal of KIISE, 42, 852-859. https://doi.org/10.5626/JOK.2015.42.7.852
  6. Park, J., Lee S., Kang, D. and Won, J. (2013). Hadoop and Mapreduce. Journal of the Korean Data & Information Science Society, 24, 1013-1027. https://doi.org/10.7465/jkdi.2013.24.5.1013
  7. Pastorelli, M., Barbuzzi, A., Carra, D., Dell'Amico, M. and Michiardi, P. (2013). HFSP: Size-based scheduling for Hadoop. In Proceedings of IEEE International Conference on Big Data. Silicon Valley, CA, USA.
  8. Song, D. (2015). Annual report on distributed parallel infernce platform for large scale knowledge processing, 13-912-03-005, IITP, Korea.
  9. Verma, A., Cherkasova, L. and Campbell, R. H. (2011). Aria: Automatic resource inference and allocation for MapReduce environments. In Proceedings of International Conference on Automation and computing, Huddersfield, United Kingdom.
  10. Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M. J., Shenker D. and Stoica, I. (2012). Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation, USENIX Association Berkeley, CA, USA.