PDA-based Text Extraction System using Client/Server Architecture

Client/Server구조를 이용한 PDA기반의 문자 추출 시스템

  • Published : 2005.02.01


Recently, a lot of researches about mobile vision using Personal Digital Assistant(PDA) has been attempted. Many CPUs for PDA are integer CPUs, which have no floating-computation component. It results in slow computation of the algorithms peformed by vision system or image processing, which have much floating-computation. In this paper, in order to resolve this weakness, we propose the Client(PDA)/server(PC) architecture which is connected to each other with a wireless LAN, and we construct the system with pipelining processing using two CPUs of the Client(PDA) and the Server(PC) in image sequence. The Client(PDA) extracts tentative text regions using Edge Density(ED). The Server(PC) uses both the Multi-1.aver Perceptron(MLP)-based texture classifier and Connected Component(CC)-based filtering for a definite text extraction based on the Client(PDA)'s tentativel99-y extracted results. The proposed method leads to not only efficient text extraction by using both the MLP and the CC, but also fast running time using Client(PDA)/server(PC) architecture with the pipelining processing.

최근, PDA를 이용한 모바일 비젼 시스템에 관한 많은 연구가 진행되고 있다. 대부분의 PDA에서 사용하는 CPU는 실수 연산 구성요소(floating-computation component)가 없는 정수(integer)형 CPU를 사용하므로, 실수 연산이 많은 영상 처리 및 비젼 시스템에서는 많은 시간이 소요되는 단점이 있다 본 논문에서는 이를 해결하기 위해 무선 랜(LAN)으로 연결된 Client(PDA)/server(PC)구조론 이용한 시스템을 제안하며, 연속 영상에서 Client(PDA)와 Server(PC) 각각의 CPU를 이용하여 파이프라이닝 형식으로 시스템을 구축함으로써 수행 시간을 단축한다. Client(PDA)는 에지 밀도(edge density)론 이용하여 대략적인 문자 영역을 추출하며, Server(PC)는 Client(PDA)에서 대략적으로 검출된 견과를 바탕으로 정밀한 문자 영역을 추출하기 위해, MLP(multi-layer perceptron) 기반의 텍스춰 분류 방법과 연결 성분(connected component: CC) 기반의 필터링 방법을 이용한다. 본 실험에서 제안한 방법은 MLP와 CC를 이용함으로써 효과적인 문자 추출 결과를 보였으며, 파이프라이닝 형식의 Client(PDA)/server(PC)구조를 이용함으로써 빠른 수행 시간을 보였다.



  1. Jing Zhang, Xilin Chen, Jie Yang and Alex Waibel, 'A PDA-based Sign Translator,' Proceedings of the 4th IEEE International Conference on Pattern Recognition, pp. 216-219, Oct. 2002 https://doi.org/10.1109/ICMI.2002.1166996
  2. Chuang Li, Xiaoqing Ding and Youshou Wu, 'Automatic Text Location in Natural Scene Images,' Proceedings of the 6th International Conference on Document Analysis and Recognition, pp. 1069-1073, Sep. 2001
  3. 최영우, 김길천, 송영자, 배경숙, 조연희, 노명철, 이성환, 변혜란, '계층적 특징 결합 및 검증을 이용한 자연 이미지에서의 장면 텍스트 추출', 정보과학회 논문지, 제 31권, 제 5호, pp. 420-438, 2004
  4. Yasuhiko Watanabe, Kazuya Sono, Kazuya Yokomizo and Yoshihori Okada, 'Translation Camera on Mobile Phone,' Proceedings of the IEEE International Conference on Multimedia & Expo, Vol. 2, pp. 6-9, July 2003 https://doi.org/10.1109/ICME.2003.1221582
  5. Ismail Haritaoglu, 'Scene Text Extraction and Translation for Handheld Devices,' Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 408-413, 2001 https://doi.org/10.1109/CVPR.2001.990990
  6. 박현일, 김수형, '휴대폰 카메라로 획득한 저해상도 영상에서의 전화번호 인식', 제 31회 정보과학회 춘계학술대회, 제 B권, pp. 691-693, Apr. 2004
  7. Xilin Chen, Jie Yang, Jing Zhang and Alex Waibel, 'Automatic Detection and Recognition of Signs From Natural Scenes,' IEEE Transactions on Image Processing, Vol. 13, No.1, Jan. 2004 https://doi.org/10.1109/TIP.2003.819223
  8. Randy Crane, 'A Simplified Approach to Image Processing,' Prentice Hall PTR, 1997
  9. R. J. Marshall, 'The Determination of Peaks in Biological Waveforms,' Computers and Biomedical Research, Vol. 19, pp. 319-329, 1986 https://doi.org/10.1016/0010-4809(86)90045-5
  10. 정기철, 김광인, 한정현, '신경망 기반의 텍스춰 분석을 이용한 효율적인 문자 추출', 정보과학회 논문지, 제 29권, 제 3호, pp.180-191, 2002
  11. Anil. K Jain and Bin Yu, 'Automatic Text Location in Images and Video Frames,' Pattern Recognition, Vol. 31, No. 12, pp. 2055 -2076, 1998 https://doi.org/10.1109/ICPR.1998.711990
  12. Anil K. Jain and Kalle Karu, 'Learning Texture Discrimination Masks,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 2, pp. 195-205, 1996 https://doi.org/10.1109/ICNN.1994.374972
  13. Gary R. Bradski and Vadim Pisarevsky, 'Intel's Computer Vision Library: Application in Calibration, Stereo, Segmentation, Tracking, Gesture, Face and Object Recognition,' Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, Vol. 2, pp. 796-797, 2000 https://doi.org/10.1109/CVPR.2000.854964
  14. Huiping Li, David Doerman and Omid Kia, 'Automatic Text Detection and Tracking in Digital Video,' IEEE Transactions on Image Processing, Vol. 9, No, 1, pp. 147-156, Jan. 2000 https://doi.org/10.1109/83.817607