DOI QR코드

DOI QR Code

Analysis of failed job based on scheduler job logs

슈퍼컴퓨터 작업 로그 기반 실패 작업 특성 연구

  • Park, Ju-Won (Korea Institute of Science and Technology Information)
  • Published : 2018.10.31

Abstract

최근 기초 과학 분야뿐만 아니라 빅데이터 분석, 인공 지능과 같은 컴퓨터 과학 분야에서도 대용량의 컴퓨팅 자원을 많이 활용함에 따라 슈퍼컴퓨터와 같은 고성능 컴퓨팅 자원에 대한 요구가 더욱 증가하고 있다. 이러한 대규모 컴퓨팅 자원을 안정적으로 운영하기 위해서는 실패 작업의 특성에 대한 상세한 분석이 필수적이다. 본 논문에서는 한국과학기술정보연구원에서 운영하고 있는 슈퍼컴퓨터(Tachyon)에서 1년 동안 수집된 작업 데이터를 기반으로 고성컴퓨팅 시스템을 활용하는 작업의 특성을 파악하기 위해 다음 3가지의 분석 결과를 제시한다. 첫째는 실패한 작업의 비율, 평균 사용한 procssor수, 전체 작업 시간 중 실패 작업이 차지한 비율과 같이 간단한 통계적 분석 결과를 제시한다. 둘째는 실패한 작업의 inter-arrival time 분포 모형을 제시한다. 마지막으로 시간에 따른 실패 작업 확률을 분석하기 위해 inter-arrival time 값을 이용하여 hazard rate 결과를 제시한다.

Keywords