DOI QR코드

DOI QR Code

Extensions of X-means with Efficient Learning the Number of Clusters

X-means 확장을 통한 효율적인 집단 개수의 결정

  • Published : 2008.04.30

Abstract

K-means is one of the simplest unsupervised learning algorithms that solve the clustering problem. However K-means suffers the basic shortcoming: the number of clusters k has to be known in advance. In this paper, we propose extensions of X-means, which can estimate the number of clusters using Bayesian information criterion(BIC). We introduce two different versions of algorithm: modified X-means(MX-means) and generalized X-means(GX-means), which employ one full covariance matrix for one cluster and so can estimate the number of clusters efficiently without severe over-fitting which X-means suffers due to its spherical cluster assumption. The algorithms start with one cluster and try to split a cluster iteratively to maximize the BIC score. The former uses K-means algorithm to find a set of optimal clusters with current k, which makes it simple and fast. However it generates wrongly estimated centers when the clusters are overlapped. The latter uses EM algorithm to estimate the parameters and generates more stable clusters even when the clusters are overlapped. Experiments with synthetic data show that the purposed methods can provide a robust estimate of the number of clusters and cluster parameters compared to other existing top-down algorithms.

K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

Keywords

References

  1. Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006
  2. Dan Pelleg and Andrew Moore, "X-means: Extending K-means with Efficient Estimation of the Number of Clusters," Proceedings of the 17th International Conference on Machine Learning, pp. 727-734, 2000
  3. Greg Hamerly and Charles Elkan, "Learning the k in k-means," Proceedings of the 17th Annual Conference on Neural Information Processing Systems(NIPS-2003), pp. 281-288, 2003
  4. Yu Feng and Greg Hamerly, "PG-means: learning the number of clusters in data," Proceedings of the 20th Annual Conference on Neural Information Processing Systems(NIPS-2006), pp. 393-400, 2006
  5. Max Welling and Kenichi Kurihara, "Bayesian k-means as a 'maximization- expectation' algorithm," Proceedings of the 6th SIAM Conference on Data Mining, pp. 472-476, 2006
  6. Robert E. Kass and Larry Wasserman, "A Reference Bayesian Test for Nested Hypotheses and Its Relationship to the Schwarz Criterion," Journal of the American Statistical Association, Vol.90, No.431, pp. 928-934, 1995 https://doi.org/10.2307/2291327
  7. Gideon Schwarz, "Estimating the Dimension of a Model," The Annals of Statistics, Vol.6, No.2, pp. 461-464, 1978 https://doi.org/10.1214/aos/1176344136
  8. J. Rissanen, "Modeling by shortest data description," Automatica, Vol.14, No.5, pp. 454-471, 1978
  9. Sanjoy Dasgupta, "Experiments with Random Projection," Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence (UAI-2000), pp. 143-151, 2000