Usefulness of RHadoop in Case of Healthcare Big Data Analysis

RHadoop을 이용한 보건의료 빅데이터 분석의 유효성

  • Published : 2017.10.25

Abstract

R has become a popular analytics platform as it provides powerful analytic functions as well as visualizations. However, it has a weakness in which scalability is limited. As an alternative, the RHadoop package facilitates distributed processing of R programs under the Hadoop platform. This paper investigates usefulness of the RHadoop package when analyzing healthcare big data that is widely open in the internet space. To do this, this paper has compared analytic performances of R and RHadoop using the medical treatment records of year 2015 provided by National Health Insurance Service. The result shows that RHadoop effectively enhances processing performance of healthcare big data compared with R.

R은 강력한 분석과 가시화 기능을 제공함에 따라 빅데이터 시대에서의 기본 분석 플랫폼으로 각광받고 있음에도 불구하고 규모 확장성 미비에 따른 성능 제약이라는 단점을 가지고 있다. 이를 해결하기 위한 방법으로 RHadoop 패키지가 공개되어 있으며 이를 통해 R로 개발된 프로그램이 하둡을 통해 병렬 분산 처리가 가능한 특징이 있다. 본 논문에서는 공공데이터의 개방에 따라 인터넷을 통해 공개된 각종 보건의료 빅데이터의 분석에서 RHadoop 패키지의 활용이 얼마나 유효한 지를 검증하고자 하였다. 이를 위해 국민건강보험공단에서 제공한 2015년 진료내역정보를 이용하여 R과 RHadoop의 분석 성능을 비교 검증한 결과 RHadoop이 효과적으로 분석 성능을 개선시킬 수 있음을 입증하였다.

Keywords