클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝

Mining of Multi-dimensional Association Rules over Interval Data using Clustering and Characterization

  • 임승환 (한양대학교 전자컴퓨터통신공학과) ;
  • 권용석 (삼성전자 무선연구소) ;
  • 김상욱 (한양대학교 전자컴퓨터통신공학과)
  • 발행 : 2010.01.15

초록

비 트랜잭션 데이터를 대상으로 연관 규칙을 도출하기 위해서, 데이터의 속성들을 구간화하는 기법들이 활발하게 연구되었다. 이러한 기존의 연구들은 구간화 단계에서 구간 범위의 변화에 따른 연관 규칙의 신뢰도 변화를 반영하지 않고, 구간화 단계와 연관 규칙을 도출하는 단계들을 독립적으로 수행하였다. 이로 인해 속성들의 구간이 부적절하게 설정되고, 이 결과 높은 신뢰도를 갖는 연관 규칙들이 최종 결과에서 누락된다. 따라서 본 논문에서는 속성들을 구간화하는 단계와 연관 규칙들을 도출하는 단계를 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관규칙들을 도출할 수 있는 구간을 설정하는 방안을 제안한다. 이를 위해서 연관 규칙의 우변의 속성들을 대상으로 계층적 클러스터링을 수행하고, 각 클러스터들에 대해서 특성 분석을 수행한다. 실험 결과, 제안하는 기법은 기존의 기법들에 비해서 높은 신뢰도를 갖는 연관 규칙들을 발견하는 것으로 나타났다.

To discover association rules from nontransactional data, there have been many studies on discretization of attribute values. These studies do not reflect the change of discovered rules' confidence according to the change of the ranges of the discretized attributes, and perform the discretization stage and the rule discovery stage independently. This causes the ranges of attributes not properly discretized, thereby making the rules having high confidence excluded in the result set. To solve this problem, we propose a novel method that performs the discretization and rule discovery stages simultaneously in order to discretize ranges of attributes in such a way that the rules having high confidence are discovered well. To the end, we perform hierarchical clustering on the attributes in the right hand side of rules, then do characterization on every cluster thus obtained. The experimental result demonstrates that our method discovers the rules having high confidence better than existing methods.

키워드

참고문헌

  1. B. Lent, A. Swami, and J. Widom, "Clustering Association Rules," In Proc. IEEE Int'l. Conf. on Data Engineering, IEEE ICDE, pp.220-231, 1997.
  2. R. J. Miller and Y. Yang, "Association Rules Over Interval Data," In Proc. ACM Int'l. Conf. on Management of Data, ACM SIGMOD, pp.452-461, 1997.
  3. R. Povinelli, Identifying Temporal Patterns for Characterization and Prediction of Financial Time Series Events, Springer Berlin, 2001.
  4. M. Kamber, J. Han, and J. Chiang, "Metarule-Guided Mining of Multi-Dimensional Association Rules Using Data Cubes," In Proc. ACM Int'l. Conf. on Knowledge Discovery and Data Mining, ACM SIGKDD, pp.207-210, 1997.
  5. T. Zhang, R. Ramakrishnan, and M. Livny, "BIRCH: An Efficient Data Clustering Method for Very Large Databases," In Proc. ACM Int'l. Conf. on Management of Data, ACM SIGMOD, pp. 103-114, 1996.
  6. T. Zhang, R. Ramakrishnan, and M. Livny, "Data Clustering System BIRCH and Its Applications," Data Mining and Knowledge Discovery, vol.1, no.2, pp.141-182, 1997. https://doi.org/10.1023/A:1009783824328
  7. D. Harrison and D. L. Rubinfeld, "Hedonic Housing Prices and the Demand for Clean Air," Journal of Environmental Economics and Management, vol.5, pp.81-102, 1978. https://doi.org/10.1016/0095-0696(78)90006-2