• 제목, 요약, 키워드: 병렬컴퓨팅

검색결과 418건 처리시간 0.044초

멀티 코어 시스템을 위한 고속 노드내 통신 지원 모듈 (A Kernel Module to Support High-Performance Intra-Node Communication for Multi-Core Systems)

  • 진현욱;강현구;김종순
    • 한국정보과학회논문지:시스템및이론
    • /
    • v.34 no.9
    • /
    • pp.407-415
    • /
    • 2007
  • 병렬 클러스터 컴퓨팅 시스템에서는 노드간의 효율적인 통신이 시스템의 전체 성능을 좌우하는 중요한 요소로 인식되어 왔다. 따라서 지금까지의 많은 연구들은 노드간 통신(inter-node communication)의 성능 향상에 초점을 맞췄다. 하지만 최근 등장한 멀티 코어 프로세서(multi-core processor)는 노드간 통신 외에도 노드내 통신(intra-node communication)의 중요성을 크게 부각시키고 있다. 이와 같이 그 중요성이 점점 더 증가하고 있는 노드내 통신의 성능을 향상시키기 위해서 여러 가지 노드내 통신향상 기법들이 제안되어 왔다. 본 논문에서는 운영체제 커널의 도움으로 노드내 통신 시 발생하는 데이터 복사를 최소화하는 기법을 제안한다. 제안된 기법은 프로세스의 통신 버퍼를 상대 프로세스의 메모리 영역에 매핑하여 데이타 복사가 한번만 발생하도록 한다. 특히 제안된 기법은 리눅스 커널 버전 2.6을 위해서 설계된다. 성능 측정은 멀티 코어 프로세서를 장착한 시스템에서 이루어 졌으며, 기존 구현과 비교하여 본 논문에서 구현된 커널 모듈이 중간 및 작은 데이타 크기에 대해서 지연시간과 처리율을 각각 최대 62%와 144% 향상시킴을 보인다. 또한 프로세스가 수행되는 코어의 위치에 따라서 다른 성능을 보일 수 있음을 보인다.

분산 환경에서 LTMOS의 TMO 리플리카를 이용한 실시간 로드 밸런싱의 설계 및 구현 (Design And Implementation Real-Time Load Balancing Using TMO Replica Of LTMOS In Distributed Environment)

  • 주군호;임보섭;허신;김정국
    • 한국정보과학회:학술대회논문집
    • /
    • /
    • pp.829-831
    • /
    • 2005
  • 실시간 시스템이란 시간적인 제한을 가지고 작업 수행 결과의 정확도가 보장되는 시스템으로 경성 실시간 시스템과 연성 실시간 시스템으로 분류된다. 최근 분산 실시간 분야에서 새로운 패러다임으로써 폭넓게 활용되기 시작한 실시간 객체 모델인 TMO는 Kane Kim과 Kopetz에 의해 처음 제안되었다. TMO 모델은 경성 또는 연성 실시간 응용과 병렬 컴퓨팅 응용 프로그램에서 사용 될 수 있으며, 시스템의 기능적인 면과 시간 조건 수행 모두를 명확히 정의할 수 있다. TMO의 네트워크로 구성되는 실시간 분산 환경에서의 실행을 위해 몇 개의 TMO 실행 엔진이 개발 되었는데, 그 중에서 LTMOS라는 리눅스 기반의 연성 실시간 미들웨어 엔진이 한국외대 RTDCS lab.에서 개발되었다. 하지만 LTMOS의 실시간 시스템 수행 중 작업량의 과부하로 인한 deadline 위반이나, 시스템간의 분산 IPC 통신에 있어서 Channel Traffic이 빈번한 경우 실시간 시스템을 유지할 수 없다는 문제점들을 갖고 있다. 이러한 문제점들을 해결하고 조금 더 효율적인 실시간 시스템을 유지하기 위해서, TMO 프로그램의 resource 정보를 담고 있는 ODS(Object Data Store)만을 다른 노드에 있는 자신의 TMO 프로그램 Replica로 이주해서 실시간 로드 밸런싱을 구현하는 기법을 사용하였다. 이에 본 논문에서는 TMO 프로그램들의 deadline 위반 및 Channel Traffic 부하를 감지할 수 있는 Node Monitor와 최적의 노드를 선별할 수 있는 Migration Manager를 새롭게 추가하였고, 쓰레드들의 스케줄러인 WRMT에 이주 작업을 하기 위한 부가적인 기능을 구현하였다. 2D 이미지의 관측점을 줄여 계산량을 대폭 감소시키는 장점을 갖는다.것으로 조사되었으며 40대 이상의 연령층은 점심비용으로 더 많은 지출을 하고 있는 것으로 나타났다. 4) 끼니별 한식에 대한 선호도는 아침식사의 경우가 가장 높았으며, 이는 40대와 50대에서 높게 나타났다. 점심 식사로 가장 선호되는 음식은 중식, 일식이었으며 저녁 식사에서 가장 선호되는 메뉴는 전 연령층에서 일식, 분식류 이었으며, 한식에 대한 선택 정도는 전 연령층에서 매우 낮게 나타났다. 5) 각 연령층에서 선호하는 한식에 대한 조사에서는 된장찌개가 전 연령층에서 가장 높은 선호도를 나타내었고, 김치는 40대 이상의 선호도가 30대보다 높게 나타났으며, 흥미롭게도 30세 이하의 선호도는 30대보다 높게 나타났다. 그 외에도 떡과 죽에 대한 선호도는 전 연령층에서 낮게 조사되었다. 장아찌류의 선호도는 전 연령대에서 낮았으며 특히 30세 이하에서 매우 낮게 조사되었다. 한식의 맛에 대한 만족도 조사에서는 연령이 올라갈수록 한식의 맛에 대한 만족도는 낮아지고 있었으나, 한식의 맛에 대한 만족도가 높을수록 양과 가격에 대한 만족도는 높은 경향을 나타내었다. 전반적으로 한식에 대한 선호도는 식사 때와 식사 목적에 따라 연령대 별로 다르게 나타나고 있으나, 선호도는 성별이나 세대에 관계없이 폭 넓은 선호도를 반영하고 있으며, 이는 대학생들을 대상으로 하는 연구 등에서도 나타난바 같다. 주 5일 근무제의 확산과 초 중 고생들의 토요일 휴무와 더불어 여행과 엔터테인먼트산업은 더욱 더 발전을 거듭하고 있으며, 외식은 여행과 여가 활동의 필수적인 요소로써 그 역할을 일조하고 있다. 이와 같은 여가시간의 증가는 독신자들에게는 좀더 많은 여유시간을 가족을

  • PDF

고성능, 저전력 임베디드 비디오 프로세서를 위한 YUV 인식 명령어의 시뮬레이션 (Simulation of YUV-Aware Instructions for High-Performance, Low-Power Embedded Video Processors)

  • 김철홍;김종면
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • v.13 no.5
    • /
    • pp.252-259
    • /
    • 2007
  • 멀티미디어 응용과 무선통신 네트워크의 발전 속도가 급속하게 빨라짐에 따라 고성능, 저전력 멀티미디어 처리기술에 대한 소비자의 요구가 급증하고 있다. 이에 본 논문은 고성능, 저전력 임베디드 비디오 프로세서를 위한 YUV (Y: 휘도신호, U, V: 색차신호) 인식 명령어를 제안하고자 한다. 기존의 멀티미디어 전용 명령어 (e.g., MMX, SSE, VIS, AltiVec)는 일반적인 서브워드 병렬 기법을 이용하여 적당한 성능향상을 꾀하는 반면, 제안하는 YUV 인식 명령어는 두 쌍의 16-bit YUV (6-bit Y, 5-bits U, V) 데이타를 32-bit 레지스터에 저장하여 동시에 처리함으로써 칼라 비디오 처리 성능을 효율적으로 향상시킬 수 있다. 또한 데이타 포맷 사이즈를 줄임으로써 전체 시스템의 비용을 절감할 수 있다. 임베디드 슈퍼 스칼라 프로세서에서 모의 실험한 결과, YUV 인식 명령어 기반 프로그램은 baseline 프로그램에 비해 3.9배 성능 향상을 보인 반면, 동일한 프로세서 환경에서 Intel의 대표적인 멀티미디어 명령어인 MMX기반 프로그램은 baseline 프로그램보다 단지 2.1배의 성능 향상을 보인다. 또한 YUV 인식 명령어는 멀티미디어 애플리케이션에 대해 평균 75.8% 소모 에너지를 감소시킨 반면, MMX는 단지 54.8%의 소모 에너지를 감소시키는 결과를 보인다.

PreSPI: 단백질 상호작용 예측 서비스 시스템 (PreSPI: Protein-Protein Interaction Prediction Service System)

  • 한동수;김홍숙;장우혁;이성독
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • v.11 no.6
    • /
    • pp.503-513
    • /
    • 2005
  • 계산을 통한 단백질 상호작용 예측 기법의 중요성이 제기되면서 많은 단백질 상호 작용 예측 기법이 제안되고 있다. 하지만 이러한 기법들이 일반 사용자가 손쉽게 사용할 수 있는 서비스 형태로 제공되고 있는 경우는 드물다. 본 논문에서는 현재까지 알려진 단백질 상호작용 예측 기법 중 예측 기법의 완성도가 높고 상대적으로 예측 정확도가 높은 것으로 알려진 도메인 조합 기반 단백질 상호 작용 예측 기법을 이용하여 서비스 시스템으로 설계하고 구현하였다. 효모(Yeast)의 단백질 집합에 대하여 학습한 후, 학습된 단백질 집합과 공통된 도메인을 가지지만 학습 집합에 존재하지 않는 단백질 쌍들에 예측 기법을 적용하여 매우 높은 $77\%$의 민감도(sensitivity)와 $95\%$의 특이도(specificity)를 보였다. 더불어 DIP CORE, HMS-PCI, TAP 데이타의 테스트를 통해서 이 기법의 안정성을 확인하였다. 시스템의 기능들은 핵심 기능, 부가 기능 그리고 일반 서비스 기능으로 분류하였다. 시스템 설계의 주요 목표인 성능, 개방성 그리고 확장성에 따라, 개별 서비스들은 병렬화, 웹 서비스 표준 준수 및 계층화된 구조화를 지원하도록 구현하였다. 본 논문에서는 몇 가지 대표적인 사용자 인터페이스와 상세한 사용 지침도 소개한다.

전파천문 관측데이터 분석을 위해 소프트웨어를 이용한 디지털필터 설계에 관한 연구 (A Study on the Digital Filter Design using Software for Analysis of Observation Data in Radio Astronomy)

  • 염재환;오세진;노덕규;오충식;정동규;신재식;김효령;황주연
    • 한국융합신호처리학회논문지
    • /
    • v.16 no.4
    • /
    • pp.175-181
    • /
    • 2015
  • 본 논문은 전파천문 관측데이터 분석을 위해 소프트웨어를 이용한 디지털필터 설계방법에 대해 제안한다. 전파천문 관측시스템은 컴퓨팅 시스템의 발전과 함께 하드웨어에서 소프트웨어를 이용한 분석방법으로 넘어가는 단계이다. 기존 하드웨어로는 특정규격에 맞도록 설계 제작되었기 때문에 규격을 변경하는 것이 어렵고 제작에 많은 비용이 소요되지만, 소프트웨어는 규격 변경이 유연하고 공개 소프트웨어를 이용할 경우 저렴하게 설계할 수 있는 장점이 있다. 그러나 소프트웨어로 전파천문과 같이 많은 자료를 분석하기 위해서는 컴퓨터 시스템의 성능이 우수해야 하는 점도 있다. 본 연구에서는 한국우주전파관측망에서 운영하고 있는 관측시스템 중에서 하드웨어로 구성된 디지털필터와 같은 성능을 갖는 소프트웨어 디지털 필터 설계에 대해 제안한다. 제안 방법은 표준 C언어를 이용하여 디지털 필터를 설계하였으며, 설계한 디지털필터에 대해 GNU Octave로 시뮬레이션을 수행하여 유효성을 검토하였다. 또한 설계한 디지털필터의 고속연산을 위해 병렬연산이 가능한 SSE 라이브러리를 도입하였다. KVN 관측모드 중에 광대역 관측데이터를 대상으로 제안한 방법의 디지털 필터를 통하여 협대역 관측모드로 데이터 필터링을 수행하였다. 그 결과, 대역 내의 필터링이 설계대로 수행되었고 리플이 발생하지 않아, 제안방법이 유효함을 확인하였다.

타원곡선을 암호시스템에 사용되는 최적단위 연산항을 기반으로 한 기저체 연산기의 하드웨어 구현 (A Hardware Implementation of the Underlying Field Arithmetic Processor based on Optimized Unit Operation Components for Elliptic Curve Cryptosystems)

  • 조성제;권용진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • v.8 no.1
    • /
    • pp.88-95
    • /
    • 2002
  • 1985년 N. Koblitz와 V. Miller가 각각 독립적으로 제안한 타원곡선 암호시스템(ECC : Elliptic Curve Cryptosystems)은 보다 짧은 비트 길이의 키만으로도 다른 공개키 시스템과 동일한 수준의 안전도를 유지할 수 있다는 장점을 인해 IC 카드와 같은 메모리와 처리능력이 제한된 하드웨어에도 이식가능 하다. 또한 동일한 유한체 연산을 사용하면서도 다른 타원곡선을 선택할 수 있어서 추가적인 보안이 가능하기 때문에 고수준의 안전도를 유지하기 위한 차세대 암호 알고리즘으로 각광 받고 있다. 본 논문에서는 효율적인 타원곡선 암호시스템을 구현하는데 있어 가장 중요한 부분 중 하나인 타원곡선 상의 점을 고속으로 연산할 수 있는 전용의 기저체 연산기 구조를 제안하고 실제 구현을 통해 그 기능을 검증한다. 그리고 기저체 연산의 면밀한 분석을 통해 역원 연산기의 하드웨어 구현을 위하여 최적인 단위 연산항의 도출에 기반을 둔 효율적인 방법론을 제시하고, 이를 바탕으로 현실적인 제한 조건하에서 구현 가능한 수준의 게이트 수를 가지는 고속의 역원 연산기 구조를 제안한다. 또한, 본 논문에서는 제안된 방법론을 바탕으로 실제 구현된 설계회로가 기존 논문에서 비해 게이트 수는 약 8.8배가 증가하지만, 승법연산 속도는 약 150배, 역원연산 속도는 약 480배 정도 향상되는 우수한 연구 결과가 얻어짐을 보인다. 이것은 병렬성을 적용함으로서 당연히 얻어지는 속도면에서의 이득을 능가하는 성능으로, 본 논문에서 제안한 구조의 우수성을 입증하는 결과이다. 실제로, 승법 연산기의 속도에 관계없이 역원연산의 수행시간은 [lo $g_2$(m-1)]$\times$(clock cycle for one multiplication)으로 최적화가 되며, 제안한 구조는 임의의 유한체 $F_{2m}$에 적용가능하다. 제안한 전용의 연산기는 암호 프로세서 설계의 기초자료로 활용되거나, 타원곡선 암호 시스템 구현시 직접 co-processor 형식으로 임베드 되어 사용할 수 있을 것으로 사료된다.다.

그래픽 하드웨어 가속을 이용한 실시간 색상 인식 (Real-time Color Recognition Based on Graphic Hardware Acceleration)

  • 김구진;윤지영;최유주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • v.14 no.1
    • /
    • pp.1-12
    • /
    • 2008
  • 본 논문에서는 야외 및 실내에서 촬영된 차량 영상에 대해 실시간으로 차량 색상을 인식할 수 있는 GPU(Graphics Processing Unit) 기반의 알고리즘을 제시한다. 전처리 과정에서는 차량 색상의 표본 영상들로부터 특징벡터를 계산한 뒤, 이들을 색상 별로 조합하여 GPU에서 사용할 참조 텍스쳐(Reference texture)로 저장한다. 차량 영상이 입력되면, 특징벡터를 계산한 뒤 GPU로 전송하고, GPU에서는 참조 텍스쳐 내의 표본 특징리터들과 비교하여 색상 별 유사도를 측정한 뒤 CPU로 전송하여 해당 색상명을 인식한다. 분류의 대상이 되는 색상은 가장 흔히 발견되는 차량 색상들 중에서 선택한 7가지 색상이며, 검정색, 은색, 흰색과 같은 3가지의 무채색과 빨강색, 노랑색, 파랑색, 녹색과 같은 4가지의 유채색으로 구성된다. 차량 영상에 대한 특징벡터는 차량 영상에 대해 HSI(Hue-Saturation-Intensity) 색상모델을 적용하여 색조-채도 조합과 색조-명도 조합으로 색상 히스토램을 구성하고, 이 중의 채도 값에 가중치를 부여함으로써 구성한다. 본 논문에서 제시하는 알고리즘은 다양한 환경에서 촬영된 많은 수의 표본 특징벡터를 사용하고, 색상 별 특성을 뚜렷이 반영하는 특징벡터를 구성하였으며, 적합한 유사도 측정함수(likelihood function)를 적용함으로써, 94.67%에 이르는 색상 인식 성공률을 보였다. 또한, GPU를 이용함으로써 대량의 표본 특징벡터의 집합과 입력 영상에 대한 특징벡터 간의 유사도 측정 및 색상 인식과정을 병렬로 처리하였다. 실험에서는, 색상 별로 1,024장씩, 총 7,168장의 차량 표본 영상을 이용하여 GPU에서 사용하는 참조 텍스쳐를 구성하였다. 특징벡터의 구성에 소요되는 시간은 입력 영상의 크기에 따라 다르지만, 해상도 $150{\times}113$의 입력 영상에 대해 측정한 결과 평균 0.509ms가 소요된다. 계산된 특징벡터를 이용하여 색상 인식의 수행시간을 계산한 결과 평균 2.316ms의 시간이 소요되었고, 이는 같은 알고리즘을 CPU 상에서 수행한 결과에 비해 5.47배 빠른 속도이다. 본 연구에서는 차량만을 대상으로 하여 색상 인식을 실험하였으나, 일반적인 피사체의 색상 인식에 대해서도 제시된 알고리즘을 확장하여 적용할 수 있다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • v.24 no.1
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.