• 제목/요약/키워드: MapReduce

검색결과 847건 처리시간 0.033초

Hadoop 상에서 MapReduce 응용프로그램 평가 (Performance Evaluation of MapReduce Application running on Hadoop)

  • 김준수;강윤희;박용범
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제25권4호
    • /
    • pp.63-67
    • /
    • 2012
  • 다양한 분야에서 빠르게 대용량의 자료가 생성됨에 따라 이를 처리하기 위해 분산 프로그래밍 모델인 MapReduce의 활용이 도입되고 있다. 본 논문에서는 SUN Blade150에 Solaris와 Linux 환경의 클러스터 시스템을 구축한 뒤 해당 환경에서의 MapReduce 미들웨어인 Hadoop 에서 응용수행에 대한 평균 시간 및 표준 편차를 평가하여 Hadoop 기반 MapReduce 구현이 어떠한 클러스터 시스템에 의해 성능이 영향을 미치는지를 보인다.

  • PDF

데이터 분배 및 태스크 진행 스케쥴링을 통한 맵/리듀스 모델의 성능 향상 (Improving the Map/Reduce Model through Data Distribution and Task Progress Scheduling)

  • 황인성;정경용;임기욱;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제10권10호
    • /
    • pp.78-85
    • /
    • 2010
  • Map/Reduce 는 최근에 많은 주목을 받고 있는 클라우드 컴퓨팅을 구현하는 프로그래밍 모델이다. 이 모델은 여러 대의 컴퓨터를 이용해서 규모가 큰 데이터를 처리하는 어플리케이션에서 사용된다. 따라서 구성된 컴퓨터들을 효율적으로 사용하기 위해서 데이터를 적당한 크기로 나눈 다음 각각의 컴퓨터에 효율적으로 분배시키는 과정을 결정하는 것이 중요하다. 또한 모델을 구성하고 있는 Map 단계와 Reduce 단계를 실행하는 계획도 성능에 많은 영향을 줄 수 있다. 본 논문에서는 대용량의 데이터를 분리해서 Map 태스크를 실행하는 클라우드 컴퓨팅 노드의 성능과 네트워크의 상태를 고려한 후 각각의 컴퓨팅 노드에게 효율적으로 분배하는 방법을 제안한다. 그리고 Map 단계와 Reduce 단계에서 진행하는 방식을 튜닝하여 Reduce 작업의 처리속도를 향상시켰다. 제안된 방법은 대표적인 두 개의 Map/Reduce 어플리케이션을 이용하여 실험하고 조건에 따라 성능에 어떠한 결과를 미치는지 평가했다.

MapReduce 시스템을 위한 에너지 관리 알고리즘의 성능평가 (Performance Evaluation of Energy Management Algorithms for MapReduce System)

  • 김민기;조행래
    • 대한임베디드공학회논문지
    • /
    • 제9권2호
    • /
    • pp.109-115
    • /
    • 2014
  • Analyzing large scale data has become an important activity for many organizations. Since MapReduce is a promising tool for processing the massive data sets, there are increasing studies to evaluate the performance of various algorithms related to MapReduce. In this paper, we first develop a simulation framework that includes MapReduce workload model, data center model, and the model of data access pattern. Then we propose two algorithms that can reduce the energy consumption of MapReduce systems. Using the simulation framework, we evaluate the performance of the proposed algorithms under different application characteristics and configurations of data centers.

대규모 데이터 분석을 위한 MapReduce 기술의 연구 동향 (The MapReduce framework for Large-scale Data Analysis: Overview and Research Trends)

  • 이경하;박원주;조기성;류원
    • 전자통신동향분석
    • /
    • 제28권6호
    • /
    • pp.156-166
    • /
    • 2013
  • MapReduce는 다양한 형식의 대용량 데이터를 병렬 처리하는데 있어 효과적인 도구로 인식되고 있다. 특히 MapReduce의 오픈 소스 구현인 Hadoop은 여러 분야에서 널리 이용되고 있으며, 가장 대표적인 빅데이터 솔루션으로 현재까지 많은 주목을 받아오고 있다. 하지만, MapReduce는 그 구조적 특정으로 인한 이점과 함께 여러 제약과 단점들을 가진다. 이에 따라 MapReduce의 개선을 위한 많은 연구와 시스템 개량이 학계와 산업계에서 동시에 수행되어 왔다. 본고에서는 대용량 데이터 분석을 위한 MapReduce 프레임워크의 특성과 이를 개선하기 위한 최근의 연구 내용들을 소개한다. 또한 향후의 대용량 데이터 처리는 어떠한 모습을 취하게 될 것인지를 예측해 본다.

모바일게임에 적용 가능한 비정형 Big Data 처리를 위한 Incremental MapReduce (Incremental MapReduce of atypical Big Data Processing in Mobile Game)

  • 박성준;김정웅
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.301-304
    • /
    • 2014
  • 비정형 게임 Big Data에서 고효율 정보를 추출하고, 신뢰 할 수 있는 클러스터 게임서버 환경을 위한 병렬 처리를 위해 MapReduce를 사용한다. 본 논문에서는 빈번하게 입력되는 신규 게임데이터 처리를 위해 함수 Demap을 사용하는 Incremental MapReduce를 적용하여 불필요한 중간 값 저장과 재계산 없이 점차적으로 MapReduce 함수를 실행한다.

MRSPAKE : Hadoop MapReduce를 이용한 웹 규모의 공간 지식 추출기 (MRSPAKE : A Web-Scale Spatial Knowledge Extractor Using Hadoop MapReduce)

  • 이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.569-584
    • /
    • 2016
  • 본 논문에서는 Hadoop MapReduce 병렬 분산 컴퓨팅 환경을 이용해 개발한 공간 지식 추출기를 제안한다. 이 공간 지식 추출기는 대용량의 공간 데이터 집합으로부터, 임의의 두 공간 객체들 사이에 만족되는 위상 관계와 방향 관계를 나타내는 정성 공간 지식 베이스를 생성해낸다. 본 논문에서 제안하는 MapReduce 기반의 대용량 공간 지식 추출기 MRSPAKE는 HDFS 상의 분산 공간 데이터 파일에 대한 R 트리 색인과 범위 질의들을 이용함으로써, 웹 규모의 정성 공간 지식 베이스를 매우 효율적으로 추출해낸다. 대표적인 공개 데이터 집합인 Open Street Map(OSM)을 이용한 성능 분석 실험을 통해, 본 논문에서 제안하는 웹 규모의 공간 지식 추출기 MRSPAKE의 높은 성능과 확장성을 확인할 수 있었다.

MapReduce 환경에서의 실시간 LBS를 위한 이동궤적 데이터 색인 및 검색 시스템 설계 (Design of Trajectory Data Indexing and Query Processing for Real-Time LBS in MapReduce Environments)

  • 정재화
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권3호
    • /
    • pp.313-321
    • /
    • 2013
  • 최근 모바일 스마트 기기의 보급으로 스마트 기기에 탑재된 다양한 센서에서 수집되는 대량이 데이터를 분석하여 처리하는 빅 데이터의 시대는 위치기반 서비스(LBSs: Location-Based Services)에 까지 확대대고 있다. 이동궤적에 대한 데이터도 초 대용량으로 증가하고 있다. 초 대용량 이동궤적 데이터 처리를 위해서는 클라우드 컴퓨팅 기술 및 맵리듀스와 같은 병행처리 플랫폼에 대한 연구가 필요하다. 최근 대용량 데이터의 병렬처리를 위해 맵리듀스 기반의 연구는 진행되고 있으나, 일괄처리 및 키-값 데이터 구조에 적합한 맵리듀스는 실시간 LBS에 적용에 적합하지 않다. 따라서 본 연구는 맵리듀스 특성을 면밀히 분석하고 실시간적 서비스에 적합하도록 모듈 단위로 효율적인 색인 기법 및 검색에 대한 시스템 설계를 제시한다.

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

An Analytical Approach to Evaluation of SSD Effects under MapReduce Workloads

  • Ahn, Sungyong;Park, Sangkyu
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제15권5호
    • /
    • pp.511-518
    • /
    • 2015
  • As the cost-per-byte of SSDs dramatically decreases, the introduction of SSDs to Hadoop becomes an attractive choice for high performance data processing. In this paper the cost-per-performance of SSD-based Hadoop cluster (SSD-Hadoop) and HDD-based Hadoop cluster (HDD-Hadoop) are evaluated. For this, we propose a MapReduce performance model using queuing network to simulate the execution time of MapReduce job with varying cluster size. To achieve an accurate model, the execution time distribution of MapReduce job is carefully profiled. The developed model can precisely predict the execution time of MapReduce jobs with less than 7% difference for most cases. It is also found that SSD-Hadoop is 20% more cost efficient than HDD-Hadoop because SSD-Hadoop needs a smaller number of nodes than HDD-Hadoop to achieve a comparable performance, according to the results of simulation with varying the number of cluster nodes.

MapReduce 프레임워크의 I/O 비용 평가 (I/O Cost Evaluation of the MapReduce Framework)

  • 김현규;강우람
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1068-1069
    • /
    • 2013
  • 최근 정보 기술과 웹의 발전으로 많은 응용에서 데이터의 양이 급격이 증가하였다. MapReduce는 이러한 대용량 데이터를 처리하기 위해 구글에서 제안한 프레임워크이다. MapReduce 프레임워크는 데이터 전달 패러다임을 기반으로 한다. 이로부터, 데이터 처리 및 질의에 있어 I/O 비용이 전체 처리 비용에서 큰 부분을 차지한다. 본 논문에서는 MapReduce 프레임워크에서 I/O에 소요되는 비용을 확인하기 위해, 실제 데이터를 기반으로 실험을 수행하였다. 이를 통해, MapReduce 기반 시스템의 성능 예측이나 성능 향상을 위해 고려되어야 할 부분을 제시하고자 하였다.