A Pipelined Parallel Optimized Design for Convolution-based Non-Cascaded Architecture of JPEG2000 DWT

JPEG2000 이산웨이블릿변환의 컨볼루션기반 non-cascaded 아키텍처를 위한 pipelined parallel 최적화 설계

  • 이승권 ((주)동운아나텍 연구개발본부) ;
  • 공진흥 (광운대학교 컴퓨터공학과)
  • Published : 2009.07.25

Abstract

In this paper, a high performance pipelined computing design of parallel multiplier-temporal buffer-parallel accumulator is present for the convolution-based non-cascaded architecture aiming at the real time Discrete Wavelet Transform(DWT) processing. The convolved multiplication of DWT would be reduced upto 1/4 by utilizing the filter coefficients symmetry and the up/down sampling; and it could be dealt with 3-5 times faster computation by LUT-based DA multiplication of multiple filter coefficients parallelized for product terms with an image data. Further, the reutilization of computed product terms could be achieved by storing in the temporal buffer, which yields the saving of computation as well as dynamic power by 50%. The convolved product terms of image data and filter coefficients are realigned and stored in the temporal buffer for the accumulated addition. Then, the buffer management of parallel aligned storage is carried out for the high speed sequential retrieval of parallel accumulations. The convolved computation is pipelined with parallel multiplier-temporal buffer-parallel accumulation in which the parallelization of temporal buffer and accumulator is optimize, with respect to the performance of parallel DA multiplier, to improve the pipelining performance. The proposed architecture is back-end designed with 0.18um library, which verifies the 30fps throughput of SVGA(800$\times$600) images at 90MHz.

본 연구에서는 실시간 이산웨이블릿변환을 위한 컨볼루션기반 non-cascaded 구조를 구현하고자 병렬곱셈기-중간버퍼-병렬누적기의 고성능 병렬파이프라인 연산회로를 설계하였다. 이산웨이블릿변환의 컨볼루션 곱셈연산은 필터계수의 대칭성과 업/다운 샘플링이 고려된 최적화를 통해서 1/4정도로 감소시킬 수 있으며, 화상데이터와 다수 필터계수들 간의 곱셈과정을 LUT기반의 병렬계수 DA 곱셈기 구조로 구현하면 3$\sim$5배 고속연산처리가 가능하게 된다. 또한 컨볼루션의 곱셈결과를 중간버퍼에 저장하여 누적가산 과정에서 재사용하면 전체 곱셈연산량을 1/2로 감소시켜 연산전력을 절약시킬 수 있다. 중간버퍼는 화상데이터와 필터계수들의 곱셈결과값들을 컨볼루션의 누적가산 과정을 위해 정렬시켜 저장하게 되는데, 이때 병렬누적가산기의 고속 순차검색을 위해 정렬된 병렬저장이 이루어지도록 버퍼관리 구조를 설계한다. 컨볼루션의 병렬곱셈기와 병렬누적가산기는 중간버퍼를 이용한 파이프라인을 구성하게 되는데, 파이프라인 연산처리 효율을 높이기 위해 병렬곱셈기의 연산처리 성능에 맞추어 누적가산기 및 중간버퍼의 병렬화 구조가 결정된다. 설계된 고성능 이산웨이블릿변환기의 성능을 검증하기 위해서 0.18um 라이브러리를 이용한 후반부 설계를 하였으며, 90MHz에서 SVGA(800$\sim$600)영상을 30fps로 실시간 처리함을 확인하였다.

Keywords

References

  1. H. Liao, M K Mandal, and B. F. Cockburn, 'Efficient Architecture for 1-D and 2-D Lifting-based Wavelet Transform,' IEEE transactions Signal Processing., vol. 52, no.5, pp. 1315-1326, May 2004 https://doi.org/10.1109/TSP.2004.826175
  2. F. Marino, D. Guevorkian, and J Astola, 'Highly efficient high-speed!low-power architectures for 1-D discrete wavelet transforrn,' IEEE Trans. CAS-IT, vol. 47, no. 12, pp.l492-1502, December 2000
  3. K Parhi, T. Denk, 'Systolic VLSI architectures for 1-D wavelet transform,' in Proc. 32nd IEEE Asilomar Conference on Signals, Systems and Computers, Pacific Grove, Canada, vol. 2, pp.l220-1224, November 1998
  4. C. Chakrabati, M Vishwanath, and R. M. Owens, 'Architecture for wavelet transforms:a survey,' J VLSI Signal Process, vol. 14, no. 2, pp. 171-192, February 1996 https://doi.org/10.1007/BF00925498
  5. 이경민, 김영민, 'JPEG2000 CODEC을 위한 DWT 및 양자화기 VLSI 설계,' 전자공학회논문지, 제40권 SD, 제1호, 45-51쪾, 2003년 1월
  6. 윤기태, 최준림, 'JPEG2000을 위한리프팅 방식의 DWT 필터 하드웨어 설계', 2008년 SoC학술대회, 375-378쪾, 평창, 대한민국, 2008년 6월
  7. Masud, S., and McCanny, J., 'Reusable silicon IP cores for discrete wavelet transform application' IEEE Trans. Circuits Syst. I Fundam. Theory, pp. 1114 - 1124, April 2004
  8. Silva, S.v., and Barnpi, S., 'Area and throughput trade-offs in the design of pipelined discrete wavelet transform architectures', Proc. Design, Automat. and Test in Europe Conf. Exhibition (DATE'05), 2005, Vol. 3, pp. 32-7
  9. Longa, P., Miri, A, and Bolic, M., 'A flexible design of filterbank architectures for discrete wavelet transforms'. Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP'07), Vol. 3, pp. 1441- 444, April 2007
  10. Longa, P., Miri, A., and Bolic, M, 'Modified distributed arithmetic based architecture for discrete wavelet transforms,' Electronics Letters Volume 44, Issue 4, pp. 270 - 271 , February 2008 https://doi.org/10.1049/el:20082418