DOI QR코드

DOI QR Code

Keyword Spotting on Hangul Document Images Using Image-to-Image Matching

영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색

  • 박상철 (전남대학교 자연과학대학전산학과) ;
  • 손화정 (전남대학교 자연과학대학전산학과) ;
  • 김수형 (전남대학교 자연과학대학전산학과)
  • Published : 2005.06.01

Abstract

In this paper, we propose an accurate and fast keyword spotting system for searching user-specified keyword in Hangul document images by using two-level image-to-image matching. The system is composed of character segmentation, creating a query image, feature extraction, and matching procedure. Two different feature vectors are used in the matching procedure. An experiment using 1600 Hangul word images from 8 document images, downloaded from the website of Korea Information Science Society, demonstrates that the proposed system is superior to conventional image-based document retrieval systems.

본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안한다. 본 시스템은 문자 분리, 검색어 영상 생성, 특징 추출 그리고 이미지 매칭 과정으로 구성된다. 매칭 과정에서 차원이 다른 두 가지 특징 벡터를 이용한다. 8쪽 분량의 문서 영상을 한국정보과학회 웹사이트에서 다운로드하였고, 그 문서로부터 1600개의 한글단어 영상을 획득하여 실험데이터로 사용하였다 그 결과 제안한 시스템은 기존에 제안된 영상-기반 한글 단어 검색 시스템보다 성능이 크게 향상되었음을 알 수 있었다.

Keywords

References

  1. Y. Lu and C.L. Tan, 'Chinese word searching in imaged documents,' International Journal of Pattern Recognition and Artificial Intelligence, Vol.18, No.2, pp.229-246, 2004 https://doi.org/10.1142/S0218001404003137
  2. D. Doermann, 'The retrieval of document images: a brief survey,' Proc. ICDAR97, Ulm, pp.945-949, 1997 https://doi.org/10.1109/ICDAR.1997.620650
  3. F. Chen, L. Wilcox and D. Bloomberg, 'Word spotting in scanned images using hidden markov models,' Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, pp.1-4, 1993 https://doi.org/10.1109/ICASSP.1993.319732
  4. Y. Lu, L. Zhang and C.L. Tan, 'Retrieving Imaged Documents in Digital Libraries Based on Word Image Coding,' International Workshop on Document Image Analysis for Libraries, USA, pp.174-187, 2004 https://doi.org/10.1109/DIAL.2004.1263247
  5. Y. Lu, L. Zhang and C.L. Tan, 'A search engine for imaged documents in PDF files,' 27th Annual International ACM SIGIR Conference, UK, 2004 https://doi.org/10.1145/1008992.1009108
  6. J. DeCurtins and E. Chen, 'Keyword spotting via word shape recognition,' Proc. SPIE Document Recognition II, pp.270-277, 1995 https://doi.org/10.1117/12.205829
  7. A. Kolcz, J. Alspector, M. Augusteijn, R. Carlson and GV Popescu, 'A line-oriented approach to word spotting in handwritten documents,' Pattern Analysis and Applications, Vol.3, No.2, pp.153-168, 2000 https://doi.org/10.1007/s100440070020
  8. R. Manmatha, Chengfeng Han, and E. M. Riseman, 'Word spotting: A new approach to indexing handwriting,' Proc. Computer Vision and Pattern Recognition Conference, pp.631-637, 1996 https://doi.org/10.1109/CVPR.1996.517139
  9. T. Syeda-Mahmood, 'Indexing of handwritten document images,' Proc. Workshop on Document Image Analysis, Puerto Rico, pp.66-73, 1997 https://doi.org/10.1109/DIA.1997.627094
  10. F.R. Chen, L.D. Wilcox, D.S. Bloomberg, 'A comparison of discrete and continuous hidden Markov models for phrase spotting in text images,' Proc. Document Analysis and Recognition, Vol.1, pp.398-402, 1995 https://doi.org/10.1109/ICDAR.1995.599022
  11. F.R. Chen, L.D. Wilcox and D.S. Bloomberg, 'Detecting and locating partially specified keywords in scanned images using hidden Markov models,' Proc. Document Analysis and Recognition, pp.133-138, Oct., 1993 https://doi.org/10.1109/ICDAR.1993.395765
  12. 김혜금, 양진호, 이진선, 오일석 '웨이브렛을 이용한 영상기반 인쇄 한글 단어 검색,' 한국정보과학회 논문지, 제28권 제2호, pp.91-103, 2001
  13. I.S. Oh, Y.S. Choi, J.H. Yang, S.H. Kim, 'A Keyword Spotting System of Korean Document Images,' Proc. 5th International Conference on Asian Digital Libraries, Singapore, p.530, Dec., 2002 https://doi.org/10.1007/3-540-36227-4_74
  14. 곽희규, '문서 영상의 단어 단위 분할 및 단어 영상의 속성 추출에 관한 연구,' 전남대학교 전산통계학과 박사학위논문, 2001
  15. C.B. Jeong, S.H. Kim, 'A Document Image Pre- processing System for Keyword Spotting,' Proc. International Conference on Asian Digital Libraries, China, pp.440-443, Dec., 2004 https://doi.org/10.1007/b104284
  16. C.E. Jacobs, A. Finkelstein, and D.H. Salesin, 'Fast multiresolution image querying,' Proc. 22nd annual conference on Computer graphics and interactive techniques, pp.277-286, Sep., 1995 https://doi.org/10.1145/218380.218454
  17. http://www.kiss.or.kr/