A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering

중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가

  • Jeon, Joon-Woo (Dept. of Information and Communication Engineering, Inha University) ;
  • Song, Kwang-Ho (Dept. of Information and Communication Engineering, Inha University) ;
  • Kim, Yoo-Sung (Dept. of Information and Communication Engineering, Inha University)
  • 전준우 (인하대학교, 정보통신공학과) ;
  • 송광호 (인하대학교, 정보통신공학과) ;
  • 김유성 (인하대학교, 정보통신공학과)
  • Published : 2016.10.07

Abstract

본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교 실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.