An Intra Prediction Hardware Design for High Performance HEVC Encoder

고성능 HEVC 부호기를 위한 화면내 예측 하드웨어 설계

  • Park, Seung-yong (Graduate School of Information and Communication, Hanbat National University) ;
  • Guard, Kanda (Graduate School of Information and Communication, Hanbat National University) ;
  • Ryoo, Kwang-ki (Graduate School of Information and Communication, Hanbat National University)
  • 박승용 (한밭대학교 정보통신전문대학원) ;
  • ;
  • 류광기 (한밭대학교 정보통신전문대학원)
  • Published : 2015.10.26

Abstract

In this paper, we propose an intra prediction hardware architecture with less processing time, computations and reduced hardware area for a high performance HEVC encoder. The proposed intra prediction hardware architecture uses common operation units to reduce computational complexity and uses $4{\times}4$ block unit to reduce hardware area. In order to reduce operation time, common operation unit uses one operation unit to generate predicted pixels and filtered pixels in all prediction modes. Intra prediction hardware architecture introduces the $4{\times}4$ PU design processing to reduce the hardware area and uses intemal registers to support $32{\times}32$ PU processmg. The proposed hardware architecture uses ten common operation units which can reduce execution cycles of intra prediction. The proposed Intra prediction hardware architecture is designed using Verilog HDL(Hardware Description Language), and has a total of 41.5k gates in TSMC $0.13{\mu}m$ CMOS standard cell library. At 150MHz, it can support 4K UHD video encoding at 30fps in real time, and operates at a maximum of 200MHz.

본 논문에서는 고성능 HEVC 부호기 화면내 예측기의 적은 연산 시간 및 연산 복잡도, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 화면내 예측기의 하드웨어 구조는 연산 복잡도를 감소시키기 위해 공통 연산기를 사용하였고, 저면적 하드웨어 구조를 위해 $4{\times}4$ 블록 단위 연산기를 사용하였다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 화면내 예측 하드웨어 구조는 $4{\times}4$ PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, $32{\times}32$ PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 화면내 예측기의 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 41.5k개의 게이트로 구현되었다. 제안하는 화면내 예측기 하드웨어 구조는 150MHz의 동작주파수에서 4K UHD@30fps 영상의 실시간 처리가 가능하며, 최대 200MHz까지 동작 가능하다.

Keywords