An Implementation of K-Means Algorithm improving cluster centroids decision methodologies

클러스터 중심 결정 방법을 개선한 K-Means Algorithm의 구현

  • Cho, Si-Sung (Dept. of Computer Engineering, Chonbuk National University) ;
  • Kim, Ho-Young (Dept. of Computer Engineering, Chonbuk National University) ;
  • Oh, Hyung-Jin (Dept. of Computer Engineering, Chonbuk National University) ;
  • Lee, Shin-Won (Dept. of Computer Information, ChongIn College) ;
  • An, Dong-Un (Dept. of Computer Engineering, Chonbuk National University) ;
  • Chung, Sung-Jong (Dept. of Computer Engineering, Chonbuk National University)
  • 조시성 (전북대학교 컴퓨터공학과) ;
  • 김호영 (전북대학교 컴퓨터공학과) ;
  • 오형진 (전북대학교 컴퓨터공학과) ;
  • 이신원 (정인대학 컴퓨터정보학과) ;
  • 안동언 (전북대학교 컴퓨터공학과) ;
  • 정성종 (전북대학교 컴퓨터공학과)
  • Published : 2002.11.15

Abstract

K-Means 알고리즘은 재배치 기법의 일종으로 K 개의 초기 클러스터중심(centroid)를 중심으로 K 개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. K-Means 알고리즘은 특성상 초기 클러스터 중심과 새롭게 생성된 클러스터 중심에 따라 클러스터링 결과가 달라진다. 본 논문에서는 K-Means Algorithm 의 초기 클러스터중심 선택 방법과 새로운 클러스터 중심 결정 방법을 개선한 변형 K-Means Algorithm을 제안한다. SMART 시스템에서 제안한 16가지 가중치 계산 방식에 의하여 두 알고리즘의 성능을 평가한 결과 제안한 변형 알고리즘이 재현률과 F-Measure 에서 20%이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 문서가 할당되는 클러스터링 성능이 우수하였다.

Keywords