Detection of Video Scene Boundaries based on the Local and Global Context Information

지역 컨텍스트 및 전역 컨텍스트 정보를 이용한 비디오 장면 경계 검출

  • 강행봉 (가톨릭대학교 컴퓨터전자공학부)
  • Published : 2002.12.01

Abstract

Scene boundary detection is important in the understanding of semantic structure from video data. However, it is more difficult than shot change detection because scene boundary detection needs to understand semantics in video data well. In this paper, we propose a new approach to scene segmentation using contextual information in video data. The contextual information is divided into two categories: local and global contextual information. The local contextual information refers to the foreground regions' information, background and shot activity. The global contextual information refers to the video shot's environment or its relationship with other video shots. Coherence, interaction and the tempo of video shots are computed as global contextual information. Using the proposed contextual information, we detect scene boundaries. Our proposed approach consists of three consecutive steps: linking, verification, and adjusting. We experimented the proposed approach using TV dramas and movies. The detection accuracy of correct scene boundaries is over than 80%.

장면 경계 검출은 비디오 데이타에서 의미적인 구조를 이해하는데 있어서 매우 중요한 역할을 한다. 하지만, 장면 경계 검출은 의미적인 일관성을 갖는 장면을 추출하여야 하므로 셧 경계 검출에 비해 매우 까다로운 작업이다. 본 논문에서는 비디오 데이타에 존재하는 의미적인 정보를 사용하기 위해 비디오 셧의 지역 및 전역 컨텍스트 정보를 추출하여 이를 바탕으로 장면 경계를 검출하는 방식을 제안한다. 비디오 셧의 지역 컨텍스트 정보는 셧 자체에 존재하는 컨텍스트 정보로서 전경 객체(foreground object), 배경(background) 및 움직임 정보들로 정의한다. 전역 컨텍스트 정보는 주어진 비디오 셧이 주위에 존재하는 다른 비디오 셧들과의 관계로부터 발생하는 다양한 컨텍스트로서 셧들간의 유사성, 상호 작용 및 셧들의 지속 시간 패턴으로 정의한다. 이런 컨텍스트 정보를 바탕으로 연결 작업, 연결 검증 작업 및 조정 작업등의 3단계 과정을 거쳐 장면을 검출한다. 제안된 방식을 TV 드라마 및 영화에 적용하여 80% 이상의 검출 정확도를 얻었다.

Keywords

References

  1. W. Grosky, R. Jain and R. Mehrotra, The Handbook of Multimedia Information Management, Prentice Hall PTR, 1997
  2. S. Chang and H. Sundaram 'Structural and Semantic Analysis of Video,' Proc. ICME'00, Aug. 2000 https://doi.org/10.1109/ICME.2000.871455
  3. M. Yeung, B. Yeo and B. Liu, 'Segmentation of Video by Clustering and Graph Analysis,' Computer Vision and Image Understanding, Vol. 71, No. 1, pp. 94-109, 1998 https://doi.org/10.1006/cviu.1997.0628
  4. A. Hanjalic, R. Lagendijk and J. Biemond, 'Automated High-Level Movie Segmentation for Advanced Video-Retrieval Systems,' IEEE Trans. Cir. and Sys. for Video Tech., Vol. 9, No. 4, pp. 580-588, June 1999 https://doi.org/10.1109/76.767124
  5. J. Kender and B. Yeo, 'Video Scene Segmentation Via Continuous Video Coherence,' Proc. CVPR'98, June 1998 https://doi.org/10.1109/CVPR.1998.698632
  6. H. Sundaram and S. Chang, 'Determining Computable Scenes in Films and their Structures using Audio-Visual Memory Models,' Proc. ACM Multimedia'00, 2000 https://doi.org/10.1145/354384.354440
  7. M. Kim, J. Choi, D. Kim, H. Lee, C. Ahn and Y. Ho, 'A VOP Generation Tool: Automatic Segmentation of Moving Objects in Image Sequences Based on Spatio-Temporal Information,' IEEE Trans. Cir. Sys. for Video Tech., Vol. 9, No. 8, pp. 1216-1226, Dec. 1999 https://doi.org/10.1109/76.809157
  8. S. Cooray, N. O'Connor, S. Marlow, N. Murphy, and T. Curran, 'Hierarchical Semi-Automatic Video Object Segmentation for Multimedia Applications,' Proc. SPIE Internet Multimedia Management Systems II, pp.10-19, 2001
  9. H. Zhang, J. Wu, D. Zhong and S. Smoliar, 'An Integrated System for Content-based Video Retrieval and Browsing,' Pattern Recognition, 30(4), pp. 643-658, 1997 https://doi.org/10.1016/S0031-3203(96)00109-4
  10. 강행봉, '비디오 셧으로부터 영역, 모션 및 퍼지 이론을 이용한 계층적 대표 프레임 선택', 정보과학회 논문지, 제 27권 5호, pp. 510-520, 2000
  11. W. Wolf, 'Key Frame Selection by Motion Analysis,' Proc. ICASSP' 96, pp. 1228-1231, 1996 https://doi.org/10.1109/ICASSP.1996.543588
  12. B. Lucas and T. Kanade, 'An Iterative Techinque of Image Registration and Its Application to Stereo,' Proc. IJACI, pp. 674-679, 1981
  13. L. Vincent and P. Soille, 'Watersheds in Digital Spaces: An Efficient Algorithms based on Immersion Simulation,' IEEE Trans. PAMI, Vol. 13, No. 6, pp. 583-598, Jun. 1991 https://doi.org/10.1109/34.87344
  14. V. Kobla and D. Doermann, 'Compressed domain video indexing techniques using DCT and motion vector information in MPEG video,' Proc. of SPIE, 1997
  15. J. Corridoni, A. Bimbo, and P. Pala, 'Image Retrieval by Color Semantics,' ACM Multimedia Systems Journal, Vol. 7, No. 5, pp. 359-368, Sept. 1999 https://doi.org/10.1007/s005300050138
  16. E. Goldstein, Sensation and perception, Brooks/Cole, 1999
  17. E. Chang, B. Li and C. Li, 'Toward Perception-Based Image Retrieval,' Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, pp. 101-105, Jun. 2000 https://doi.org/10.1109/IVL.2000.853848