DOI QR코드

DOI QR Code

Connected Component-Based and Size-Independent Caption Extraction with Neural Networks

신경망을 이용한 자막 크기에 무관한 연결 객체 기반의 자막 추출

  • 정제희 (성균관대학교 전자전기컴퓨터공학과) ;
  • 윤태복 (성균관대학교 전자전기컴퓨터공학과) ;
  • 김동문 (성균관대학교 전자전기컴퓨터공학과) ;
  • 이지형 (성균관대학교 전자전기컴퓨터공학과)
  • Published : 2007.12.25

Abstract

Captions which appear in images include information that relates to the images. In order to obtain the information carried by captions, the methods for text extraction from images have been developed. However, most existing methods can be applied to captions with fixed height of stroke's width. We propose a method which can be applied to various caption size. Our method is based on connected components. And then the edge pixels are detected and grouped into connected components. We analyze the properties of connected components and build a neural network which discriminates connected components which include captions from ones which do not. Experimental data is collected from broadcast programs such as news, documentaries, and show programs which include various height caption. Experimental result is evaluated by two criteria : recall and precision. Recall is the ratio of the identified captions in all the captions in images and the precision is the ratio of the captions in the objects identified as captions. The experiment shows that the proposed method can efficiently extract captions various in size.

영상에 나타나는 자막은 영상과 관계가 있는 정보를 포함한다. 이러한 영상과 관련 있는 정보를 이용하기 위해 영상으로부터 자막을 추출하는 연구는 근래에 들어 활발히 진행되고 있다. 기존의 연구는 일정한 높이의 자막이나 획의 두께를 지닌 자막에서만 정상적인 작동을 한다. 본 논문에서는 일정 크기 이상의 자막에 대해서 적용할 수 있는 크기에 무관한 자막 추출 방법을 제안한다. 먼저, 자막 연결 객체의 패턴 추출을 위해서 자막이 포함된 영상을 수집하고, 신경망을 이용해서 자막의 패턴을 분석한다. 그 후로는 사전에 추출한 패턴을 이용하여 입력 영상에서 자막을 추출한다. 실험에 사용된 영상은 뉴스, 다큐멘터리, 쇼 프로그램과 같은 대중 방송에서 수집하였다. 실험 결과는 다양한 크기의 자막을 포함한 영상을 사용하여 실험하였고, 자막 추출의 결과는 찾아진 연결객체 중에 자막의 비율과 자막 중에 찾아진 자막의 비율로 분석하였다. 실험 결과를 보면 제안한 방법에 의해 다양한 크기의 자막을 추출할 수 있음을 보여준다.

Keywords

References

  1. R. Lyu, J. Song, M. Cai, 'A Comprehensive Method for Multilingual Video Text Detection, Localization and Extraction', IEEE Transaction on Circuits and Systems for Video Technology, Vol. 15, No.2, pp. 243-255, 2005 https://doi.org/10.1109/TCSVT.2004.841653
  2. 정종면, 차지훈, 김규훈, '디지털 비디오를 위한 획기반 자막 추출 알고리즘', 퍼지 및 지능시스템학회 논문지, Vol. 17, No.3, pp. 297-303, 2007 https://doi.org/10.5391/JKIIS.2007.17.3.297
  3. K.C. Jung, K.I. Kim, A.K. Jain, 'Text Information Extraction in Images and Video: A Survey', Journal on Pattern Recognition, Vol. 37, No.5, pp. 977-997, 2004 https://doi.org/10.1016/j.patcog.2003.10.012
  4. E.K. Wong, M. Chen, 'A Robust Algorithm for Text Extraction in Color Video', IEEE Int'l Proc. Multimedia and Expo 2000(ICME 2000), Vol. 2, pp. 797-800, 2000
  5. K.C. Jung, E.Y, Kim, 'Automatic Text Extraction for Content-Based Image Indexing', Lecture notes in Computer Science, Proc. 8th Pacific -Asia Conf. (PAKDD 2004), Vol. 3056, pp. 497-507, 2004
  6. H. Byun, I. Jang, Y. Choi, 'Text Extraction in Digital News Video Using Morphology', Lecture notes in Computer Science, Proc. 5th, Int'l Workshop on Document Analysis System, Vol. 2423, pp. 341 - 352, 2002
  7. Y.M.Y Hasan, L. J. Karam 'Morphological Text Extraction from Images', IEEE Trans. Image Processing, Vol. 9, No. 11, pp. 1978-1983, 2000 https://doi.org/10.1109/83.877220
  8. H.E. Jiaying, L.I. Shaofa, 'Hybrid Chinese/English Text Identification in Web Images', Proc. 3rd Int'l Conf. Image and Graphics(ICIG '04), pp. 361- 364, 2004
  9. R. C. Gonzalez, Digital Image Processing, 2nd edition, Prentice Hall, New Jzersey, 2001

Cited by

  1. Size-Independent Caption Extraction for Korean Captions with Edge Connected Components vol.12, pp.4, 2012, https://doi.org/10.5391/IJFIS.2012.12.4.308