• Title, Summary, Keyword: 밀도기반 군집화

Search Result 19, Processing Time 0.034 seconds

Cluster Merging Using Density based Fuzzy C-Means algorithm (밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병)

  • 한진우;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.235-238
    • /
    • 2003
  • Fuzzy C-Means(FCM) 알고리즘은 초기 군집 중심의 개수와 위치에 따라 군집 결과의 성능차이가 많이 나타난다. 하지만 일반적인 경우에 군집 중심의 개수는 분석가의 주관에 의해 결정되고, 임의적으로 결정되기 때문에 원래 데이터의 구조와는 무관하게 수행되어 최적화된 군집화 수행을 실행하지 못하는 경우가 발생하게 된다. 따라서 본 논문에서는 원래의 데이터의 구조에 좀더 근접한 퍼지 군집화를 수행하기 위하여 격자를 바탕으로 한 데이터의 밀도를 이용한 FCM을 제안하고, 이러한 밀도 기반 FCM에 의해 결정된 군집의 합병 기법을 제안하였다. N-차원의 데이터 공간을 N-차원의 격자로 나누고, 초기 군집 중심의 개수와 위치는 각 격자의 밀도를 바탕으로 결정된다. 초기화 이후에 각 격자 내부에서 FCM을 이용하여 군집화를 수행하고, 계속해서 이웃 격자의 군집결과에 대하여 군집간의 유사도 측도를 이용하여 군집 합병을 수행함으로써 데이터의 자연적인 구조에 근접한 군집화를 수행하였다. 제안된 군집화 합병 기법의 향상된 성능은 UCI Machine Learning Repository 데이터를 이용하여 확인하였다.

  • PDF

Multi-hierarchical Density-based Clustering Method (다계층 밀도기반 군집화 기법)

  • Shin, Dong Mun;Jung, Suk Ho;Yi, Gyeong Min;Lee, Dong Gyu;Sohn, GyoYong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

  • PDF

A clutter reduction algorithm based on clustering for active sonar systems (능동소나 시스템을 위한 군집화 기반의 클러터 제거 기법)

  • Kwak, ChulHyun;Cheong, Myoung Jun;Ahn, Jae-Kyun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.2
    • /
    • pp.149-157
    • /
    • 2016
  • In this paper, we propose a new clutter reduction algorithm, which rejects heavy clutter density in shallow water environments, based on a clustering method. At first, it applies the density-based clustering to active sonar measurements by considering speed of targets, pulse repetition intervals, etc. We assume clustered measurements as target candidates and remove noise, which is a set of unclustered measurements. After clustering, we classify target and clutter measurements by the validation check method. We evaluate the performance of the proposed algorithm on synthetic data and sea-trial data. The results demonstrate that the proposed algorithm provides significantly better performances to reduce clutter than the conventional algorithm.

Density-Based Estimation of POI Boundaries Using Geo-Tagged Tweets (공간 태그된 트윗을 사용한 밀도 기반 관심지점 경계선 추정)

  • Shin, Won-Yong;Vu, Dung D.
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.42 no.2
    • /
    • pp.453-459
    • /
    • 2017
  • Users tend to check in and post their statuses in location-based social networks (LBSNs) to describe that their interests are related to a point-of-interest (POI). While previous studies on discovering area-of-interests (AOIs) were conducted mostly on the basis of density-based clustering methods with the collection of geo-tagged photos from LBSNs, we focus on estimating a POI boundary, which corresponds to only one cluster containing its POI center. Using geo-tagged tweets recorded from Twitter users, this paper introduces a density-based low-complexity two-phase method to estimate a POI boundary by finding a suitable radius reachable from the POI center. We estimate a boundary of the POI as the convex hull of selected geo-tags through our two-phase density-based estimation, where each phase proceeds with different sizes of radius increment. It is shown that our method outperforms the conventional density-based clustering method in terms of computational complexity.

Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm (개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병)

  • Han, Jin-Woo;Jun, Sung-Hae;Oh, Kyung-Whan
    • Journal of Korean Institute of Intelligent Systems
    • /
    • v.14 no.5
    • /
    • pp.517-524
    • /
    • 2004
  • The fuzzy set theory has been wide used in clustering of machine learning with data mining since fuzzy theory has been introduced in 1960s. In particular, fuzzy C-means algorithm is a popular fuzzy clustering algorithm up to date. An element is assigned to any cluster with each membership value using fuzzy C-means algorithm. This algorithm is affected from the location of initial cluster center and the proper cluster size like a general clustering algorithm as K-means algorithm. This setting up for initial clustering is subjective. So, we get improper results according to circumstances. In this paper, we propose a cluster merging using enhanced density based fuzzy C-means clustering algorithm for solving this problem. Our algorithm determines initial cluster size and center using the properties of training data. Proposed algorithm uses grid for deciding initial cluster center and size. For experiments, objective machine learning data are used for performance comparison between our algorithm and others.

A Recommendation Algorithm for the Personalized Service Based on User Location in Ubiquitous Environments (유비쿼터스 환경에서 사용자 위치 기반의 개인화된 서비스 추천 알고리즘)

  • Choi, Jung Hwan;Jang, Hyun Su;Eom, Young Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.436-439
    • /
    • 2007
  • 추천 서비스는 사용자에게 적합한 서비스를 선응적으로 제공하는 기술로써, 전자상거래 환경을 중심으로 널리 이용되고 있다. 그러나, 유비쿼터스 환경에서도 가장 활발한 기술 접목이 이루어지는 홈 네트워크 환경 내에 추천 서비스가 적용된 사례는 많지 않다. 본 논문에서는 홈 네트워크 환경에서 누적된 사용자와 기기 간 상호작용 정보들을 바탕으로 사용자 위치 기반의 개인화된 서비스를 추천하는 알고리즘을 제안한다. 본 알고리즘에서는 밀도기반 초기값 선정 기법을 적용한 군집화를 통해 필요한 데이터만을 추출함으로써 서비스 추천의 효율성 및 정확성을 높인다. 또한, 사용자 기반의 협업 필터링을 이용하여 데이터가 충분히 많지 않은 상황에서도 정확한 서비스 추천을 수행한다.

  • PDF

Discretization of continuous-valued attributes considering data distribution (데이터 분포를 고려한 연속 값 속성의 이산화)

  • 이상훈;박정은;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

Nonparametric clustering of functional time series electricity consumption data (전기 사용량 시계열 함수 데이터에 대한 비모수적 군집화)

  • Kim, Jaehee
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.1
    • /
    • pp.149-160
    • /
    • 2019
  • The electricity consumption time series data of 'A' University from July 2016 to June 2017 is analyzed via nonparametric functional data clustering since the time series data can be regarded as realization of continuous functions with dependency structure. We use a Bouveyron and Jacques (Advances in Data Analysis and Classification, 5, 4, 281-300, 2011) method based on model-based functional clustering with an FEM algorithm that assumes a Gaussian distribution on functional principal components. Clusterwise analysis is provided with cluster mean functions, densities and cluster profiles.

Recommand Movie Based on Scenario in Movie Characters' Social Networks (영화 등장인물의 사회관계망에서 시나리오를 기반으로 하는 영화 추천 기법)

  • Heo, Joo-Seong;Kim, Tae-Hyeong;Seo, Jang-Won;Lee, Ye-Young;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.1134-1137
    • /
    • 2015
  • '영화 시나리오를 기반으로 영화를 어떻게 추천할 수 있는가'에서 본 논문에서는 전통적인 사회관계망 분석 지표 중 그래프의 평균 길이와 평균 군집도 그리고 밀도를 이용하여 3차원의 데이터 집합을 산출했고, 산출한 데이터 집합을 기반으로 k-means 군집화 알고리즘을 활용하여 각 k 값에 따른 영화를 추천해보았다. 그 결과 기타 여느 추천들과 다른 추천결과를 도출해냈다.

Guassian pdfs Clustering Using a Divergence Measure-based Neural Network (발산거리 기반의 신경망에 의한 가우시안 확률 밀도 함수의 군집화)

  • 박동철;권오현
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.627-631
    • /
    • 2004
  • An efficient algorithm for clustering of GPDFs(Gaussian Probability Density Functions) in a speech recognition model is proposed in this paper. The proposed algorithm is based on CNN with the divergence as its distance measure and is applied to a speech recognition. The algorithm is compared with conventional Dk-means(Divergence-based k-means) algorithm in CDHMM(Continuous Density Hidden Markov Model). The results show that it can reduce about 31.3% of GPDFs over Dk-means algorithm without suffering any recognition performance. When compared with the case that no clustering is employed and full GPDFs are used, the proposed algorithm can save about 61.8% of GPDFs while preserving the recognition performance.