하둡 기반 대규모 작업 배치 및 처리 기술 설계

DOI QR코드

DOI QR Code

김직수;구엔 카오;김서영;황순욱
Kim, Jik-Soo;Cao, Nguyen;Kim, Seoyoung;Hwang, Soonwook

  • 투고 : 2016.02.04
  • 심사 : 2016.03.24
  • 발행 : 2016.06.15

초록

본 논문에서는 대규모의 작업을 고성능으로 처리하기 위한 Many-Task Computing(MTC) 기술을 기존의 빅데이터 처리 플랫폼인 Hadoop에 적용하기 위한 MOHA(Many-Task Computing on Hadoop) 프레임워크에 대해 기술한다. 세부적으로는 MOHA의 기본 개념과 개발 동기, 분산 작업 큐에 기반한 PoC(Proof-of-Concept) 수행 결과를 제시하고 향후 연구 방향에 대해서 논의하고자 한다. MTC 응용은 각각의 태스크들이 요구하는 I/O 처리량은 상대적으로 많지 않지만, 동시에 대량의 태스크들을 고성능으로 처리해야하고 이들이 파일을 통해서 통신한다는 특징을 가지고 있다. 따라서 기존의 상대적으로 큰 데이터 블록 사이즈에 기반한 Hadoop 응용과는 또 다른 패턴의 데이터 집약형 워크로드라고 할 수 있다. 이러한 MTC 기술과 빅데이터 기술의 융합을 통해 멀티 응용 플랫폼으로 진화하고 있는 Hadoop 생태계에 신규 프레임워크로서 대규모 계산과학 응용을 실행할 수 있는 MOHA를 추가하여 기여할 수 있을 것이다.

키워드

하둡;빅데이터 플랫폼;멀티레벨 스케줄링

참고문헌

  1. D. Thain, T. Tannenbaum, and M. Livny, "Distributed computing in practice: the Condor experience," Concurrency and Computation: Practice and Experience, Vol. 17, No. 2-4, pp. 323-356, 2005. https://doi.org/10.1002/cpe.938
  2. B. Bode, D. M. Halstead, R. Kendall, Z. Lei, and D. Jackson, "The Portable Batch Scheduler and the Maui Scheduler on Linux Clusters," Proc. of the Usenix, Proceedings of the 4th Annual Linux Showcase & Conference, Nov. 2000.
  3. IBM Tivoli Workload Scheduler LoadLeveler, [Online]. Available: http://www03.ibm.com/systems/software/loadleveler/.
  4. W. Gentzsch, "Sun Grid Engine: Towards Creating a Compute Power Grid," Proc. of the 1st IEEE International Symposium on Cluster Computing and the Grid (CCGrid 2001), May 2001.
  5. J. J. Dongarra, S. W. Otto, M. Snir, and D. Walker, "A message passing standard for MPP and workstations," Communications of the ACM, Vol. 39, No. 7, pp. 84-90, 1996.
  6. I. Raicu, I. Foster and Y. Zhao, "Many-Task Computing for Grids and Supercomputers," Proc. of the IEEE/ACM Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS'08), 2008.
  7. Workshop on Many-Task Computing on Clouds, Grids, and Supercomputers, [Online]. Available: http://datasys.cs.iit.edu/events/MTAGS15/
  8. Ioan Raicu et al., "Middleware Support for Many-Task Computing," Cluster Computing, Vol. 13, Issue 3, Sep. 2010.
  9. A. Luckow, M. Santcroos, O. Weidner, A. Merzky, P. Mantha, and S. Jha, "P* : A Model of Pilot Abstractions," Proc. of the 8th IEEE International Conference on eScience (eScience 2012), Oct. 2012.
  10. J-S. Kim, S. Kim, S. Kim, S. Rho, S. Kim, and S. Hwang, "An Analysis of Multi-level Scheduling Mechanism for Large-scale Scientific Computing," Journal of KIISE: Computing Practice and Letters, Vol. 20, No. 7, Jul. 2014.
  11. Apache Hadoop: https://hadoop.apache.org/
  12. Vinod Kumar Vavilapalli et. al., "Apache Hadoop YARN: yet another resource negotiator," Proc. of the 4th annual Symposium on Cloud Computing (SOCC'13), Oct. 2013.
  13. Arun C. Murthy et. al., Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2, Addison-Wesley, 2014.
  14. J.-S. Kim, S. Rho, S. Kim, S. Kim, S. Kim, and S. Hwang, "HTCaaS: Leveraging Distributed Supercomputing Infrastructures for Large-Scale Scientific Computing," Proc. of the 6th Workshop on Many-Task Computing on Clouds, Grids, and Supercomputers (MTAGS'13) held with SC13, Nov. 2013.
  15. J. Kreps, N. Narkhede, and J. Rao, "Kafka: A distributed messaging system for log processing," NetDB, 2011.
  16. B. Snyder, D. Bosanac, And R. Davies, ActiveMQ in action, Manning, 2011.

과제정보

연구 과제번호 : 빅데이터 처리 고도화 핵심 기술개발 사업 총괄 및 고성능컴퓨팅 기술을 활용한 성능 가속화 기술 개발

연구 과제 주관 기관 : 정보통신기술진홍센터