DOI QR코드

DOI QR Code

Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors

임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현

  • 정용범 (울산대학교 전기공학부) ;
  • 김종면 (울산대학교 컴퓨터정보통신공학부)
  • Received : 2011.01.12
  • Accepted : 2011.03.11
  • Published : 2011.06.30

Abstract

Processor technology is currently continued to parallel processing techniques, not by only increasing clock frequency of a single processor due to the high technology cost and power consumption. In this paper, a SIMD (Single Instruction Multiple Data) based parallel processor is introduced that efficiently processes massive data inherent in multimedia. In addition, this paper proposes pixel subword parallel processing instructions for the SIMD parallel processor architecture that efficiently operate on the image and video pixels. The proposed pixel subword parallel processing instructions store and process four 8-bit pixels on the partitioned four 12-bit registers in a 48-bit datapath architecture. This solves the overflow problem inherent in existing multimedia extensions and reduces the use of many packing/unpacking instructions. Experimental results using the same SIMD-based parallel processor architecture indicate that the proposed pixel subword parallel processing instructions achieve a speedup of $2.3{\times}$ over the baseline SIMD array performance. This is in contrast to MMX-type instructions (a representative Intel multimedia extension), which achieve a speedup of only $1.4{\times}$ over the same baseline SIMD array performance. In addition, the proposed instructions achieve $2.5{\times}$ better energy efficiency than the baseline program, while MMX-type instructions achieve only $1.8{\times}$ better energy efficiency than the baseline program.

프로세서 기술은 공정비용의 증가와 전력 소모 때문에 단순 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 병렬 프로세싱 기술 발전이 이루어지고 있다. 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효과적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개하고, 또한 이러한 SIMD 기반 병렬 프로세서 아키텍처에서 이미지/비디오 픽셀을 효율적으로 처리 가능한 픽셀 서브워드 병렬처리 명령어를 제안한다. 제안하는 픽셀 서브워드 병렬처리 명령어는 48비트 데이터패스 아키텍처에서 4개의 12비트로 분할된 레지스터에 4개의 8비트 픽셀을 저장하고 동시에 처리함으로써 기존의 멀티미디어 전용 명령어에서 발생하는 오버플로우 및 이를 해결하기 위해 사용되는 패킹/언팽킹 수행의 상당한 오버헤드를 줄일 수 있다. 동일한 SIMD 기반 병렬 프로세서 아키텍처에서 모의 실험한 결과, 제안한 픽셀 서브워드 병렬처리 명령어는 baseline 프로그램보다 2.3배의 성능 향상을 보인 반면, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX 타입 명령어는 baseline 프로그램보다 단지 1.4배의 성능 향상을 보였다. 또한, 제안한 명령어는 baseline 프로그램보다 2.5배의 에너지 효율 향상을 보인 반면, MMX 타입 명령어는 baseline 프로그램보다 단지 1.8배의 에너지 효율 향상을 보였다.

Keywords

References

  1. 정무경, 박성모, 엄낙옹, "병렬 프로세서 기술 및 동향", 전자통신동향분석 제24권, 제6호, 86-93쪽, 2009년 12월.
  2. A.D. Blas et. al., "The UCSC Kestrel Parallel Processor," IEEE Trans. on Parallel and Distributed Systems, vol.16, No.1, pp. 80-92, Jan., 2005. https://doi.org/10.1109/TPDS.2005.12
  3. A. gentile and D. S. Wills, "Portable Video Supercomputing," IEEE Trans. on Computers, Vol.53, No.8, pp.960-973, Aug., 2004. https://doi.org/10.1109/TC.2004.48
  4. Luong Van Huynh, 김철홍, 김종면, "퍼지 백터 양자화를 위한 대규모 병렬 알고리즘 ", 한국정보처리학회논문지 A, 제16-A권, 제6호, 411-418쪽, 2009년 12월.
  5. A. Peleg and U. Weiser, "MMX Technology Extension to the Intel Architecture," IEEE Micro, Vol.16, No.4, pp.42-50, Aug., 1996. https://doi.org/10.1109/40.526924
  6. S. K. Raman, V. Pentkovski, and J.Keshava,"Implementing Streaming SIMD Extensions on the Pentium III Processor," IEEE Micro, Vol.20, No.4, pp.28-39, 2000. https://doi.org/10.1109/40.865866
  7. R. B. Lee, "Subword Parallelism with MAX-2," IEEE Micro, vol. 16, no. 4, pp. 51-59, Aug. 1996. https://doi.org/10.1109/40.526925
  8. M. Tremblay, J. M. O'Connor, V. Narayanan, and L. He, "VIS Speeds New Media Processing,"IEEE Micro, Vol.16, No.4, pp.10-20, Aug., 1996. https://doi.org/10.1109/40.526921
  9. R. Sites, Ed., Alpha Reference Manual, Burlington, MA:Digital,1992.
  10. H. Nguyen and L. John, "Exploiting SIMD Parallelism in DSP and Multimedia Algorithms using the AltiVec Technology," in Proc. Intl. Conf. on Supercomputer, pp.11-20, June, 1999.
  11. 박경, "멀티미디어 확장 명령어 세트의 조사", 정보통신산업진흥원, [IITA] 정보통신연구진흥원 학술정보 주간기술 853호, http://kidbs.itfind.or.kr/WZIN/jugidong/853/85302.html
  12. P. Ranganathan, S. Adve, and N. P. Jouppi, "Performance of image and video processing with general-purpose processors and media ISA extensions," in Proc. of the 26th Intl. Sym. on Computer Architecture, pp.124-135, May, 1999.
  13. R. Bhargava, L. John, B. Evans, and R. Radhakrishnan, "Evaluating MMX technology using DSP and multimedia applications," in Proc. of IEEE/ACM Sym. on Microarchitecture, pp.37-46, 1998. https://doi.org/10.1109/MICRO.1998.742767
  14. N. Slingerland, and A. J. Smith, "Measuring the performance of multimedia instruction sets," IEEE Trans. on Computers, Vol51, No.11, pp.1317-1332, Nov., 2002. https://doi.org/10.1109/TC.2002.1047756
  15. A. Krikelis, I. P. Jalowiecki, D. Bean, R. Bishop, M. Facey, D. Boughton, S. Murphy, and M. Whitaker, "A programmable processor with 4096 processing units for media applications," in Proc. of the IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing, Vol.2, pp.937-940, May, 2001. https://doi.org/10.1109/ICASSP.2001.941070
  16. L. W. Tucker, and G. G. Robertson, "Architecture and applications of the connection machine," IEEE Computer, Vol.21, No.8, pp.26-38, 1988. https://doi.org/10.1109/2.74
  17. "Connection machine model CM-2 technical summary," Thinking Machines Corp., version 51, May, 1989.
  18. MarPar (MP-2) System Data Sheet. MarPar Corporation, 1993.
  19. M. J. Irwin, R. M. Owens, "A Two-Dimensional, Distributed Logic Processor," IEEE Trans. on Computers, Vol.40, No.10, pp.1094-1101, 1991. https://doi.org/10.1109/12.93742
  20. M. Bolotski, R. Armithrajah, W. Chen, "ABACUS: A High Performance Architecture for Vision," in Proceedings of the International Conference on Pattern Recognition, 1994.
  21. S. M. Chai, T. M. Taha, D. S. Wills, and J. D. Meindl, "Heterogeneous architecture models for interconnectmotivated system design," IEEE Trans. VLSI Systems, special issue on system level interconnect prediction, Vol.8, No.6, pp.660-670, Dec., 2000. https://doi.org/10.1109/92.902260
  22. J. C. Eble, V. K. De, D. S. Wills, and J. D. Meindl, "A generic system simulator (GENESYS) for ASIC technology and architecture beyond 2001," In Proc. of the Ninth Ann. IEEE Intl. ASIC Conf., pp.193-196, Sept., 1996. https://doi.org/10.1109/ASIC.1996.551992
  23. V. Tiwari, S. Malik, and A. Wolfe, "Compilation Techniques for Low Energy: An Overview," in Proc. of the IEEE Intl. Symp. on Low Power Electron., pp.38-39, Oct., 1994. https://doi.org/10.1109/LPE.1994.573195