• Title/Summary/Keyword: Parallel Computing

검색결과 807건 처리시간 0.025초

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

OpenCL을 활용한 CPU와 GPU 에서의 CMMB LDPC 복호기 병렬화 (Parallel LDPC Decoder for CMMB on CPU and GPU Using OpenCL)

  • 박주열;홍정현;정기석
    • 대한임베디드공학회논문지
    • /
    • 제11권6호
    • /
    • pp.325-334
    • /
    • 2016
  • Recently, Open Computing Language (OpenCL) has been proposed to provide a framework that supports heterogeneous computing platforms. By using an OpenCL framework, digital communication systems can support various protocols in a unified computing environment to achieve both high portability and high performance. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes for China Multimedia Mobile Broadcasting (CMMB) on a heterogeneous platform. Each step of LDPC decoding has different parallelization characteristics. In this paper, steps suitable for task-level parallelization are executed on the CPU, and steps suitable for data-level parallelization are processed by the GPU. To improve the performance of the proposed OpenCL kernels for LDPC decoding operations, explicit thread scheduling, loop-unrolling, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance by using heterogeneous multi-core processors on a unified computing framework.

P2P 네트워크상에서 MapReduce 기법 활용 (An Application of MapReduce Technique over Peer-to-Peer Network)

  • 임건길;이재기
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.586-590
    • /
    • 2009
  • 본 논문의 목적은 P2P 네트워크 상에서 동적 환경 애플리케이션을 지원하기 위한 MapReduce 의 설계이다. MapReduce는 클라우드컴퓨팅 중에서 대용량 데이터의 병렬처리를 위해서 개발된 소프트웨어 프레임워크이다. P2P 기반 네트워크의 특징은 노드 고장이 언제든지 발생할 수 있으며, 이런 노드 고장을 제어하기 위해 Pastry라는 DHT 라우팅 프로토콜의 사용에 초점을 맞추었다. 본 논문의 결과는 프레임워크가 양호한 계산 효율과 확장성을 유지하는 가운데 P2P 네트워크 시스템의 다양한 애플리케이션에 적용될 수 있음을 보이고 있다. 향후 몇 년 동안은 P2P 네트워크와 병렬 컴퓨팅이 산업과 학계에서 매우 중요한 연구 및 개발 주제로 자리 잡을 것으로 확신한다.

수중 위치측정을 위한 인공지능 컴퓨팅 플랫폼 설계 (Artificial Intelligence Computing Platform Design for Underwater Localization)

  • 문지윤;이영필
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.119-124
    • /
    • 2022
  • 성공적인 수중 위치측정을 위해서는 다양한 수중 로봇에 탑재 가능한 대규모 병렬 컴퓨팅 환경이 필요하다. 이에, 본 논문에서는 수중 위치측정을 위한 인공지능 컴퓨팅 플랫폼 설계 방법을 제안한다. 제안한 플랫폼은 총 4개의 하드웨어 모듈로 구성된다. Transponder 및 hydrophone 모듈은 음파를 송수신하며 FPGA 모듈은 송수신한 음파 신호를 빠르게 병렬로 전처리한다. Jetson 모듈은 인공지능 기반 알고리즘 처리한다. 해당 플랫폼은 실제 수중 환경에서 거리에 따라 수중 위치측정을 위한 음파 송수신 실험을 수행하였으며 이를 통해 설계한 플랫폼을 검증할 수 있었다.

모바일 클라우드 컴퓨팅 서비스를 위한 위성영상 병렬 정보처리 성능 예비실험 (Preliminary Performance Testing of Geo-spatial Image Parallel Processing in the Mobile Cloud Computing Service)

  • 강상구;이기원;김용승
    • 대한원격탐사학회지
    • /
    • 제28권4호
    • /
    • pp.467-475
    • /
    • 2012
  • 클라우드 컴퓨팅 서비스는 경제성, 확장성, 보안성, 공유성, 접근성 등에서 특장점이 있기 때문에 단순한 사무용 시스템에서 전문적 과학정보처리까지 여러 분야에서 활용되고 있다. 그러나 공간정보 분야, 특히 원격탐사 분야에서는 연구나 기술 개발 단계가 아직 초기 수준이다. 이번 연구에서는 기존 연구에서 구축한 스마트폰 위성영상 정보처리 시스템을 아마존 웹 서비스와 연계된 모바일 클라우드 컴퓨팅 환경으로 이동하고 연산 성능 향상을 위해 병렬처리 프로그래밍 기법을 적용하였다. 앞으로 모바일 클라우드 컴퓨팅 서비스에 대한 산업적 수요와 관련 기술개발 사례가 증가할 것이므로 이 연구에서는 주로 영상처리 기능에 대한 성능 측정 실험을 우선적으로 수행하였다. 모바일 클라우드 컴퓨팅 환경의 운영이나 서비스 방식이 다양한 데, 이번 연구에서 적용된 실험 조건에서는 클라우드 서버가 단일 서버 방식에 비하여 성능이 우수한 것으로 나타났다. 이 연구는 모바일 클라우드를 위성영상정보처리와 연계하기 위한 예비 연구이다.

윈도우즈 기반의 병렬컴퓨팅 환경 구축 및 성능평가 (Construction and Performance Evaluation of Windows- based Parallel Computing Environment)

  • 신재렬;김명호;최정열
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2001년도 추계 학술대회논문집
    • /
    • pp.58-62
    • /
    • 2001
  • Aparallel computing environment was constructed based on Windows 2000 operating system. This cluster was configured using Fast-Ethernet system to hold up together the clients within a network domain. For the parallel computation, MPI implements for Windows such as MPICH.NT.1.2.2 and MP-MPICHNT.1.2 were used with Compaq Visual Fortran compiler which produce a well optimized executives for x86 systems. The evaluation of this cluster performance was carried out using a preconditioned Navier-Stokes code for the 2D analysis of a compressible and viscous flow around a compressor blade. The parallel performance was examined in comparison with those of Linux clusters studied previously by changing a number of processors, problem size and MPI libraries. The result from the test problems presents that parallel performance of the low cost Fast-Ethernet Windows cluster is superior to that of a Linux cluster of similar configuration and is comparable to that of a Myrinet cluster.

  • PDF

A two-level parallel algorithm for material nonlinearity problems

  • Lee, Jeeho;Kim, Min Seok
    • Structural Engineering and Mechanics
    • /
    • 제38권4호
    • /
    • pp.405-416
    • /
    • 2011
  • An efficient two-level domain decomposition parallel algorithm is suggested to solve large-DOF structural problems with nonlinear material models generating unsymmetric tangent matrices, such as a group of plastic-damage material models. The parallel version of the stabilized bi-conjugate gradient method is developed to solve unsymmetric coarse problems iteratively. In the present approach the coarse DOF system is solved parallelly on each processor rather than the whole system equation to minimize the data communication between processors, which is appropriate to maintain the computing performance on a non-supercomputer level cluster system. The performance test results show that the suggested algorithm provides scalability on computing performance and an efficient approach to solve large-DOF nonlinear structural problems on a cluster system.

정익-동익 상호작용의 병렬처리해석 (Analysis of Stator-Rotor Interactions by using Parallel Computer)

  • 이장준;최준민;이동호
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2004년도 추계 학술대회논문집
    • /
    • pp.111-114
    • /
    • 2004
  • CFD code that simulates stator-rotor interactions is developed applying parallel computing method. Modified Multi-Block Grid System which enhances perpendicularity in grid and is appropriate in parallel processing is introduced and Patched Algorithm is applied in sliding interface which is caused by movement of rotor. The experimental model in the turbo-machine is composed of 11 stators and 14 rotors. Analyses on two test cases which are one stator - one rotor model and three stators - four rotors model are performed. The results of the two cases have been compared with the experimental test data.

  • PDF

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권6호
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

PC level 병렬 구조해석법 개발을 위한 PCG 알고리즘 (PCG Algorithms for Development of PC level Parallel Structural Analysis Method)

  • 박효선;박성무;권윤한
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 1998년도 가을 학술발표회 논문집
    • /
    • pp.362-369
    • /
    • 1998
  • The computational environment in which engineers perform their designs has been rapidly evolved from coarse serial machines to massively parallel machines. Although the recent development of high-performance computers are available for a number of years, only limited successful applications of the new computational environments in computational structural engineering field has been reported due to its limited availability and large cost associated with high-performance computing. As a new computational model for high-performance engineering computing without cost and availability problems, parallel structural analysis models for large scale structures on a network of personal computers (PCs) are presented in this paper. In structural analysis solving routine for the linear system of equations is the most time consuming part. Thus, the focus is on the development of efficient preconditioned conjugate gradient (PCG) solvers on the proposed computational model. Two parallel PCG solvers, PPCG-I and PPCG-II, are developed and applied to analysis of large scale space truss structures.

  • PDF