DOI QR코드

DOI QR Code

Mining of Frequent Structures over Streaming XML Data

스트리밍 XML 데이터의 빈발 구조 마이닝

  • 황정희 (남서울대학교 컴퓨터학과)
  • Published : 2008.02.29

Abstract

The basic research of context aware in ubiquitous environment is an internet technique and XML. The XML data of continuous stream type are popular in network application through the internet. And also there are researches related to query processing for streaming XML data. As a basic research to efficiently query, we propose not only a labeled ordered tree model representing the XML but also a mining method to extract frequent structures from streaming XML data. That is, XML data to continuously be input are modeled by a stream tree which is called by XFP_tree and we exactly extract the frequent structures from the XFP_tree of current window to mine recent data. The proposed method can be applied to the basis of the query processing and index method for XML stream data.

유비쿼터스 환경에서 상황정보 인식 분야를 연구하면서 가장 밑바탕에서 기초가 될 수 있는 것은 인터넷 기술과 XML(Extensible Markup Language)이다. 인터넷을 통한 통신에서 XML 데이터의 사용이 일반화되고 있으며 데이터의 형태는 연속적이다. 그리고 XML 스트림 데이터에 대한 질의를 처리하기 위한 방안들이 제시되고 있다. 이 논문에서는 스트림 데이터에 대한 질의처리를 효율적으로 수행하기 위한 기반연구로써 XML을 레이블의 순서화된 트리로 모델링하여 온라인 환경에서 빈발한 구조를 추출하는 마이닝 방법을 제안한다. 즉, 지속적으로 입력되는 XML 데이터의 구조를 트리로 모델링하고 각각의 트리를 하나의 트리 집합의 구조로 표현하여 현재 윈도우 시점에서 빈발한 구조를 정확하고 빠르게 추출하는 방법을 제시한다. 제시하는 방법은 XML의 질의 처리 및 색인 구성의 기초 자료로 활용될 수 있다.

Keywords

References

  1. B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom, 'Models and Issues in Data Stream Systems,' Invited paper in Proc. of PODS, 2002
  2. V. Ganti, J. Gehrke, R. Ramakrishnan, 'DEMON: Mining and Monitoring Evolving Data,' TKDE 1391), pp.50-63, 2001
  3. R. Nayak, R. Witt, A. Tonev, 'Data Mining and XML Documents,' International Conference on Internet Computing, 2002
  4. M. Zaki, 'Efficiently Mining Frequent Tree in a Forest,' Proceedings of the ACM SIGKDD International Conference, 2002
  5. T.Asai, K.Abe, S. Kawasoe, H.Sakamoto, et al., 'Online algorithms for mining semi-structured data stream,' In.Proc. ICDM, 2002
  6. S. Babu, J. Widom, 'Continuous Queries over Data Stream,' SIG MOD Record 30(3), pp.109-120, 2001 https://doi.org/10.1145/603867.603884
  7. J. Chen, D. J. DeWitt, F. Tian, U. Wang, 'A Scalable Continuous Query System for Internet Database,' ACM SIGMOD, 2000
  8. L.H. Yang, M.L. Lee, W. Hsu, 'Finding hot query patterns over an XQuery stream,' VLDB Journal Special Issue on Data Stream Processing, 2004
  9. G. S. Manku, R. Motwani, 'Approximate Frequency Counts over Data Streams,' VLDB 2002
  10. D. Braga, A. Campi, S. Ceri, M. Klemettinen, and P. Lanzi, 'A Tool for Extracting XML Association Rules from XML Documents,' Proceedings of IEEE-ICTAI 2002, USA, November, 2002
  11. M.C. Hsieh, Y.H. Wu, A.L. Chen, 'Discovering Frequent Tree Patterns over Data Stream,' In Proc of SIAM International Conference on Data Mining, 2006
  12. C. K. S. Leung Q. I. Khan, T. Hoque, 'CanTree:A Tree Structure for Efficient Incremental Mining of Frequent Pattern Sets,' In proc. ICDM 2005
  13. C. K. S. Leung Q. I. Khan, 'DSTree:A Tree Structure for the Mining of Frequent Sets from Data Streams,' In proc. ICDM 2006
  14. J. Li. D. Maier, 'Semantics and Evaluation Techniques for Window Aggregates in Data Streams,' In Proc. of ACM SIGMOD International Conference on the Management of Data, 2005
  15. 장중혁, 이원석, '데이터 스트림에서 개방 데이터 마이닝 기반의 빈발 항목 탐색,' 정보처리학회논문지D, 제10-D권 제3호, 2003
  16. 김현규, 김철기, 김명호, '비순서화된 스트림 처리를 위한 슬라이딩 윈도우 기법,' 정보과학회, 제33권 제 6호, 2006
  17. 김영현, 강현철, 'XML 스트림 데이터에 대한 적응력 있는 질의 처리 시스템,' 정보과학회, 제33권 제 3호, 2006
  18. NIAGARA query engine. http://www.cs.wisc.edu/niagara/data.html