DOI QR코드

DOI QR Code

Frequent Patten Tree based XML Stream Mining

빈발 패턴 트리 기반 XML 스트림 마이닝

  • 황정희 (남서울대학교 컴퓨터학과)
  • Published : 2009.10.31

Abstract

XML data are widely used for data representation and exchange on the Web and the data type is an continuous stream in ubiquitous environment. Therefore there are some mining researches related to the extracting of frequent structures and the efficient query processing of XML stream data. In this paper, we propose a mining method to extract frequent structures of XML stream data in recent window based on the sliding window. XML stream data are modeled as a tree set, called XFP_tree and we quickly extract the frequent structures over recent XML data in the XFP_tree.

웹상에서 데이터 교환과 표현을 위한 표준으로 XML 데이터가 널리 사용되고 있으며 유비쿼터스 환경에서 XML 데이터의 형태는 연속적이다. 이와 관련하여 XML 스트림 데이터에 대한 빈발 구조 추출 및 효율적인 질의처리를 위한 마이닝 방법들이 연구되고 있다. 이 논문에서는 슬라이딩 윈도우 기반으로 하여 XML 스트림 데이터로부터 최근 윈도우 범위에 속하는 데이터에 대한 빈발 패턴 구조를 추출하기 위한 마이닝방법을 제안한다. 제안된 방법은 XML 스트림 데이터를 트리집합 모델, XFP_tree로 표현하고 이를 이용하여 최근의 데이터에 대한 빈발구조 패턴을 빠르게 추출한다.

Keywords

References

  1. A. Deligiannakis, Y. Kotidis, and Roussopoulos, "Hierarchical In-Network Data Aggregation with Quality Guarantees," LNCS(EDBT 2004), 2004.
  2. G. Chen, X. Wu, and X. Zhu, "Mining Sequential Patterns Across Data Streams," Univ. of Vermont Computer Science Technical Report(CS-05-04), 2005.
  3. B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom, "Models and Issues in Data Stream Systems," Invited paper in Proc. of PODS, 2002. https://doi.org/10.1145/543613.543615
  4. T.Asai, K.Abe, S. Kawasoe, H.Sakamoto, et al., "Online algorithms for mining semi-structured data stream," In.Proc. ICDM, 2002. https://doi.org/10.1109/ICDM.2002.1183882
  5. T. Dalamagas, T. Cheng, K. J. Winkel, and T. Sellis, "Clustering XML Document by Structure," The 3rd Helenic Conference on AL. SETN, 2004.
  6. M. Zaki, "Efficiently Mining Frequent Tree in a Forest," Proceedings of the ACM SIGKDD International Conference, 2002. https://doi.org/10.1145/775047.775058
  7. G. S. Manku, R. Motwani, "Approximate Frequency Counts over Data Streams," VLDB 2002.
  8. J. Chen, D. J. DeWitt, F. Tian, U. Wang, " A Scalable Continuous Query System for Internet Database," ACM SIGMOD, 2000.
  9. L.H. Yang, M.L. Lee, W. Hsu, “Finding hot query patterns over an XQuery stream," VLDB Journal Special Issue on Data Stream Processing, 2004. https://doi.org/10.1007/s00778-004-0134-4
  10. D. Braga, A. Campi, S. Ceri, M. Klemettinen, and P. Lanzi, "A Tool for Extracting XML Association Rules from XML Documents," Proceedings of IEEE-ICTAI 2002, USA, November 2002.
  11. M.C. Hsieh, Y.H. Wu, A.L. Chen, "Discovering Frequent Tree Patterns over Data Stream," In Proc of SIAM International Conference on Data Mining, 2006.
  12. C. K. S. Leung Q. I. Khan, T. Hoque, "CanTree:A Tree Structure for Efficient Incremental Mining of Frequent Pattern Sets," In proc. ICDM 2005. https://doi.org/10.1109/ICDM.2005.38
  13. C. K. S. Leung Q. I. Khan, "DSTree:A Tree Structure for the Mining of Frequent Sets from Data Streams," In proc. ICDM 2006. https://doi.org/10.1109/ICDM.2006.62
  14. J. Li. D. Maier, "Semantics and Evaluation Techniques for Window Aggregates in Data Streams," In Proc. of ACM SIGMOD International Conference on the Management of Data, 2005. https://doi.org/10.1145/1066157.1066193
  15. J. Han, J. Pei, Y. Yin, "Mining Frequent Patterns without Candidate Generation," In Proc. of ACM SIGMOD International Conference on the Management of Data, 2000. https://doi.org/10.1145/342009.335372
  16. 장중혁, 이원석, “데이터 스트림에서 개방 데이터 마이닝 기반의 빈발 항목 탐색,”정보처리학회논문지D, 제10-D권 제3호, 2003. https://doi.org/10.3745/KIPSTD.2003.10D.3.447
  17. 박석, 김영수, “부분매칭 경로 질의를 위한 포스트픽스 공유에 기반한 스트리밍 XML 데이터 필터링 기법,” 정보과학회 제33권 제 1호, 2006.
  18. 김영현, 강현철, “XML 스트림 데이터에 대한 적응력 있는 질의 처리 시스템,”정보과학회, 제33권 제 3호, 2006.
  19. NIAGARA query engine. http://www.cs.wisc.edu/niagara/data.html