DOI QR코드

DOI QR Code

Frequent Patterns Mining using only one-time Database Scan

한 번의 데이터베이스 탐색에 의한 빈발항목집합 탐색

  • 채덕진 (충북대학교 BK21) ;
  • 김룡 (한국전자통신연구원) ;
  • 이용미 (충북대학교 전자계산학과) ;
  • 황부현 (전남대학교 전산학과) ;
  • 류근호 (충북대학교 전기전자 및 컴퓨터공학부)
  • Published : 2008.02.29

Abstract

In this paper, we propose an efficient algorithm using only one-time database scan. The proposed algorithm creates the bipartite graph which indicates relationship of large items and transactions including the large items. And then we can find large itemsets using the bipartite graph. The bipartite graph is generated when database is scanned to find large items. We can't easily find transactions which include large items in the large database. In the bipartite graph, large items and transactions are linked each other. So, we can trace the transactions which include large items through the link information. Therefore the bipartite graph is a indexed database which indicates inclusion relationship of large items and transactions. We can fast find large itemsets because proposed method conducts only one-time database scan and scans indexed the bipartite graph. Also, it don't generate candidate itemsets.

본 논문에서는 한 번의 데이터베이스 스캔으로 빈발항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 제안하는 알고리즘은 빈발 항목과 그 빈발항목을 포함하고 있는 트랜잭션과의 관계를 나타내는 이분할 그래프(bipartite graph)를 생성한다. 그리고 생성된 이분할 그래프를 이용하여 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 추출할 수 있다. 이분할 그래프는 빈발항목들을 추출하기위해 대용량의 트랜잭션 데이터베이스를 스캔할 때 생성된다. 이분할 그래프는 빈발항목들과 그들이 속한 트랜잭션들 간의 관계를 엣지(edge)로 연결한 그래프이다. 즉, 본 논문에서의 이분할 그래프는 대용량의 데이터베이스에서 쉽게 발견할 수 없는 빈발항목과 트랜잭션의 관계를 검색하기 쉽게 색인(index)화한 그래프이다. 본 논문에서 제안하는 방법은 한 번의 데이터베이스 스캔만을 수행하고 후보 항목집합들을 생성하지 않기 때문에 기존의 방법들보다 빠른 시간에 빈발 항목집합들을 찾을 수 있다.

Keywords

References

  1. R. Agrawal, C. Aggarwal and V. V. V. Prasad, 'A tree projection algorithm for generation of frequent itemsets,' In Journal of Parallel and Distributed Computing, Volume 61, Issue 3, pp.350-371, March, 2001 https://doi.org/10.1006/jpdc.2000.1693
  2. R. Agrawal, T. Imielinski, and A. Swami, 'Mining Association Rules between Sets of Items in Large Databases,' In Proceedings of the ACM SIGMOD, Washington D.C., pp.207-216, May, 1993
  3. R. Agrawal, R. Srikant, 'Fast Algorithms for Mining Association Rules in Large Databases,' In Proceedings of the VLDB, Santiago, Chile, pp.487-499, September, 1994
  4. G. Grahne, L. Lakshmanan and X. Wang, 'Efficient mining of constrained correlated sets,' In Proceedings of the ICDE, pp.512-521, February, 2000
  5. J. Han, J. Pei and Y. Yin, 'Mining frequent patterns without candidate generation,' In Proceedings of the ACM SIGMOD, pp.1-12, June, 2000
  6. M. Klemettinen, h. Mannila, P. Ronkainen, h. Toivonen and A.I. Verkamo, 'Finding interesting rules from large sets of discovered association rules,' In Proceedings of the CIKM, pp.401-408, November, 1994
  7. B. Lent, A. Swami and J. Widom, 'Clustering association rules,' In Proceedings of the ICDE, pp.220-231, April, 1997
  8. B. Liu, W. Hsu and Y. Ma, 'Mining association rules with multiple minimum supports,' In Proceedings of the ACM SIGKDD, pp.337-341, August, 1999
  9. R. Ng, L. V. S. Lakshmanan, J. Han and A. Pang, 'Exploratory mining and pruning optimizations of constrained associations rules,' In Proceedings of the ACM SIGMOD, pp.13-24, June, 1998
  10. J.S. Park, M.-S. Chen, and P.S. Yu, 'An Effective Hash-Based Algorithm for Mining Association Rules,' In Proceedings of the ACM SIGMOD, pp.175-186, May, 1995
  11. S. Sarawagi, S. Thomas and R. Agrawal, 'Integrating association rule mining with relational database systems: Alternatives and implications,' In Proceedings of the ACM SIGMOD, pp. 343-354, June, 1998
  12. A. Savasere, E. Omiecinski and S. Navathe, 'An efficient algorithm for mining association rules in large databases,' In Proceedings of the VLDB, pp.432-444, September, 1995
  13. R. Srikant, Q. Vu and R. Agrawal, 'Mining association rules with item constraints,' In Proceedings of the Knowledge Discovery and Data Mining, pp.67-73, August, 1997

Cited by

  1. Utilizing the Effect of Market Basket Size for Improving the Practicality of Association Rule Measures vol.17D, pp.1, 2010, https://doi.org/10.3745/KIPSTD.2010.17D.1.001