DOI QR코드

DOI QR Code

Frequent Itemset Creation using Bit Transaction Clustering in Data Mining

데이터 마이닝에서 비트 트랜잭션 클러스터링을 이용한 빈발항목 생성

  • 김의찬 (가톨릭대학교 컴퓨터공학과) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Published : 2006.06.01

Abstract

Many data are stored in database. For getting any information from many data, we use the query sentences. These information is basic and simple. Data mining method is various. In this paper, we manage clustering and association rules. We present a method for finding the better association rules, and we solve a problem of the existing association rules. We propose and apply a new clustering method to fit for association rules. It is not clustering of the existing distance basis or category basis. If we find association rules of each clusters, we can get not only existing rules found in all transaction but also rules that will be characteristics of clusters. Through this study, we can expect that we will reduce the number of many transaction access in large databases and find association of small group.

데이터베이스에는 많은 데이터들이 저장되어 있다. 무수히 많은 데이터들로부터 어떠한 정보를 얻기 위해서는 질의문을 사용하면 된다. 질의문을 통해 얻는 정보들은 기본적이고 단순한 정보들이다. 데이터 마이닝은 데이터베이스를 통해서 얻을 수 없는 정보를 얻게 해주는 기법이다. 데이터 마이닝 기법에는 여러 가지가 있지만 본 논문에서는 클러스터링과 연관규칙을 찾아내는 기법을 다룬다. 기존의 연관규칙 기법에서의 문제점을 보완하고 더 나은 규칙들을 찾아내기 위한 방법을 제시한다. 여기에 클러스터링 방법을 적용하게 되는데 기존의 거리기반이나 범주 기반 등의 클러스터링이 아닌 연관규칙에 적합한 클러스터링 기법을 제안하여 적용하게 된다. 각 클러스터의 연관규칙들을 찾게 되면 기존의 전체 데이터베이스에서 찾아진 연관규칙 뿐만 아니라 클러스터들의 특징이 될 규칙들도 찾을 수 있게 된다. 본 연구를 통해 대용량 데이터베이스의 많은 트랜잭션 접근을 줄이고 소집단의 연관성도 찾을 수 있다.

Keywords

References

  1. M.S. Chen, J. Han, and P.S. Yu, 'Data Mining: An Overview from a Database Perspective,' IEEE Trans. on Knowledge and Data Engineering, Vol.8, No.6, pp.866-883, Dec., 1996 https://doi.org/10.1109/69.553155
  2. R. Agrawal and R. Srikant, 'Fast Algorithm for Mining Association Rules in Large Databases,' Proc. of Int. Conf. on Very Large Databases, pp.487-499, 1994
  3. A.K. Jain, M.N. Murty, and P.J. Flynn, 'Data Clustering: A Review,' ACM Computing Surveys, Vol.31, No.3, pp.264-323, 1999 https://doi.org/10.1145/331499.331504
  4. H. Wang, W. Wang, J. Yang, and P.S. Yu, 'Clustering by Pattern Similarity in Large Data Sets,' Proc. of ACM SIGMOD, pp.394-405, Jun., 2002 https://doi.org/10.1145/564691.564737
  5. E.H. Han, G. Karypis, V. Kumar, and B. Mobasher, 'Clustering Based On Association Rule Hypergraphs,' Workshop on Research Issues on Data Mining and Knowledge Discovery, 1997
  6. W.A. Kosters, E. Marchiori, and A.J. Oerlemans, 'Mining Clusters with Association Rules,' Proc. of Intelligent Data Analysis, pp.39-50, 1999
  7. K. Wang, C. Xu, and B. Liu, 'Clustering Transactions Using Large Items,' Proc. of Int. Conf. on Information and Knowledge Management, pp.483-490, Nov., 1999 https://doi.org/10.1145/319950.320054
  8. S. Guha, R. Rastogi, and K. Shim, 'ROCK: a Robust Clustering Algorithm for Categorical Attributes,' Proc. of Int. Conf. on Data Engineering, 1999
  9. J.S. Park, M.S. Chen, and P.S. Yu, 'An Effective hash-based Algorithm for Mining Association Rules,' Proc. of ACM SIGMOD, pp.175-186, May, 1995 https://doi.org/10.1145/223784.223813
  10. H. Toivonen, 'Sampling Large Databases for Association Rules,' Proc. of Int. Conf. on Very Large Databases, pp.134-145, Sep., 1996
  11. J. Han, J. Pei and Y. Yin, 'Mining Frequent Patterns without candidate generation,' Proc. of ACM SIGMOD, pp.1-I2, May, 2000 https://doi.org/10.1145/342009.335372
  12. J. Yoon, V. Raghavan, and V. Chakilam, 'BitCube: Clustering and Statistical Analysis for XML Documents,' Proc. of Int. Conf. on Scientific and Statistical Database Management, Jul., 2001
  13. 김의찬, 이재민, 황병연, 'XML 문서 클러스터링을 이용한 개선된 연관규칙,' 한국정보과학회 추계학술대회논문집, 제31권 제2호, pp.181-183, 2004
  14. 김의찬, 황병연, '트랜잭션 클러스터링을 이용한 연관규칙 생성,' 한국정보처리학회 춘계학술대회논문집, 제12권 제1호, pp.15-18, 2005