A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining

데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구

  • 김홍일 (대진대학교 컴퓨터공학과) ;
  • 이혜명 (경문대학교 인터넷미디어정보과)
  • Published : 2003.12.01

Abstract

Many applications require the clustering of large amounts of high dimensional data. Most automated clustering techniques have been developed but they do not work effectively and/or efficiently on high dimensional (numerical) data, which is due to the so-called “curse of dimensionality”. Moreover, the high dimensional data often contain a significant amount of noise, which causes additional ineffectiveness of algorithms. Therefore, it is necessary to look over the structure and various characteristics of high dimensional data and to develop algorithm that support clustering adapted to applications of the high dimensional database. In this paper, we investigate and classify the existing high dimensional clustering methods by analyzing the strength and weakness of each method for specific applications and comparing them. Especially, in terms of efficiency and effectiveness, we compare the traditional algorithms with CLIP which are developed by us. This study will contribute to develop more advanced algorithms than the current algorithms.

데이터베이스의 많은 응용분야에서 대용량 고차원 데이터의 클러스터링을 요구하고 있다. 이에 따라 클러스터링 알고리즘에 대한 많은 연구가 이루어지고 있으나 기존의 알고리즘들은 “차원의 저주”에 기인하여 고차원 공간에서 효과적 및 효율적으로 수행하지 못하는 경향이 있다. 더욱이, 고차원 데이터는 상당한 양의 잡음 데이터를 포함하고 있으므로 알고리즘의 효과성 문제를 야기한다. 그러므로 고차원 데이터의 구조와 다양한 특성을 지원하는 적합한 클러스터링 알고리즘이 개발되어야 한다. 본 논문에서는 지금까지 연구된 고차원 클러스터링 기법을 조사한 후, 각 기법의 장단점과 적합한 응용 분야에 대한 비교 및 분석을 통하여 분류한다. 특히 본 논문에서는 최근의 연구를 통하여 개발한 점진적 프로젝션 기반의 클러스터링 알고리즘인 CLIP의 성능을 기존의 알고리즘과 비교 분석함으로써 그 효율성 및 효과성을 입증한다. 이러한 알리즘들의 소개 및 분류를 통하여 향후의 더욱 향상된 클러스터링 알고리즘 개발에 기반이 되고자 한다.

Keywords