• 제목/요약/키워드: Weight Frequent Pattern

검색결과 29건 처리시간 0.025초

Prefix-트리를 이용한 동적 가중치 빈발 패턴 탐색 기법 (Efficient Dynamic Weighted Frequent Pattern Mining by using a Prefix-Tree)

  • 정병수
    • 정보처리학회논문지D
    • /
    • 제17D권4호
    • /
    • pp.253-258
    • /
    • 2010
  • 지금까지의 빈발 패턴(Frequent Pattern) 마이닝에서는 각 항목들의 중요도(Weight)는 모든 같은 값으로 다루어 왔으나 실 환경에서는 각 항목들의 중요도가 다르게 적용되는 경우가 많이 있고 또 같은 항목이라도 시간에 따라 다른 중요도 값으로 다루어져야 할 경우가 있다. 비즈니스 데이터 분석 환경이나 웹 클릭 데이터 분석 환경과 같은 응용에서도 동적으로 변하는 중요도를 고려하여야 한다. 지금까지 항목의 중요도를 고려하는 여러 패턴 마이닝 기법들이 제안되고 있으나 동적으로 변하는 항목의 중요도를 고려하는 연구는 발표되지 않고 있다. 본 논문에서는 처음으로 동적인 항목들의 중요도(혹은 가중치)를 고려하는 빈발 패턴 마이닝 알고리즘을 제안한다. 제안하는 기법은 단 한번의 데이터베이스 스캔으로 처리되므로 스트림 데이터를 분석할 수 있다. 여러 실험을 통하여 제안하는 기법은 매우 효과적이며 확장성이 좋은 것임을 보인다.

빈발도와 가중치를 이용한 서비스 연관 규칙 마이닝 (Mining Association Rule on Service Data using Frequency and Weight)

  • 황정희
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권2호
    • /
    • pp.81-88
    • /
    • 2016
  • 일반적인 빈발패턴 탐사 방법은 항목의 빈발도만을 고려한다. 그러나 유용한 정보를 추출하는 데 있어 빈발도와 더불어 고려해야 하는 것은 빈발항목이 아니더라도 연관된 항목이 주기적으로 함께 발생한다면 시기나 시간에 따라 관심의 중요도가 변화하는 것을 고려해야 한다. 즉, 시간에 따라 사용자가 요구하는 서비스의 중요도는 다르므로 각 서비스 항목에 대한 중요도의 값을 고려하여 마이닝 하는 방법이 필요하다. 본 논문에서는 서비스 온톨로지 기반으로 가중치를 이용한 서비스 빈발 패턴을 추출하는 마이닝 기법을 제안한다. 제안하는 기법은 시공간 상황을 기반으로 서비스의 중요도를 고려한 가중치를 부여하여 연관 서비스를 발견한다. 새롭게 탐사되는 서비스는 저장되어 있는 서비스 규칙과의 새로운 조합을 통해 사용자에게 최적의 서비스 정보를 제공할 수 있는 기반이 된다.

길이에 따라 감소하는 빈도수 제한조건을 고려한 가중화 그래프 패턴 마이닝 기법 (A Weighted Frequent Graph Pattern Mining Approach considering Length-Decreasing Support Constraints)

  • 윤은일;이강인
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.125-132
    • /
    • 2014
  • 대규모의 데이터베이스로부터 숨겨진 유용한 패턴 정보를 찾기 위해 빈발 패턴 마이닝이 제안된 이래로, 다양한 종류의 접근 방법들과 어플리케이션들이 연구되어 왔다. 특히, 빈발 그래프 패턴 마이닝은 계속해서 복잡해져 가는 최근의 데이터들을 효과적으로 다루기 위해 제안되었고, 이와 관련한 다양한 효율적인 알고리즘들이 연구되어 왔다. 그래프 데이터베이스로부터 얻을 수 있는 그래프 패턴들은 이를 구성하는 요소들에 따라 다른 중요도를 가지며 길이에 따라 다른 특성을 갖는다. 하지만, 전통적인 빈발 그래프 패턴 마이닝 접근 방법들은 이러한 문제들을 고려할 수 없다는 한계점을 지닌다. 즉, 기존의 방법들은 마이닝 과정에서 추출되는 그래프 패턴들의 길이에 상관없이 오직 하나의 최소 지지도 임계값만을 고려하고 이들의 가중치 요소들을 사용하지 않기 때문에, 실제적으로 쓸모없는 그래프 패턴들이 상당량 생성될 수 있다. 작은 수의 정점과 간선을 갖는 작은 그래프 패턴들은 이들에 대한 가중화 지지도 값이 상대적으로 높을 때 흥미로운 특성을 갖는 경향이 있는 반면, 많은 정점과 간선을 갖는 큰 그래프 패턴들은 비록 가중화 지지도 값이 상대적으로 낮을지라도 흥미로운 특성을 가질 수 있다. 이러한 이유로, 본 논문에서는 길이에 따라 감소하는 지지도 제한조건을 고려한 가중치 기반의 빈발 그래프 패턴 마이닝 알고리즘을 제안한다. 본 논문에서 제공되는 총체적인 실험 결과들은 제안되는 방법이 기존의 최신 그래프 마이닝 알고리즘과 비교하여 패턴 생성, 수행시간, 그리고 메모리 사용량 측면에서 더욱 뛰어난 성능을 보장함을 보인다.

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법 (A Sequential Pattern Mining based on Dynamic Weight in Data Stream)

  • 최필선;김환;김대인;황부현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.137-144
    • /
    • 2013
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 탐사하는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용 가능한 탐사 기법으로 동적인 가중치 변화를 탐색 과정에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터가 들어오는 스트림 환경에서 동적 가중치를 적용하여 빈발한 이벤트들을 탐사하는 새로운 순차 패턴 탐사 기법을 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여주고 해시 구조를 통한 데이터 입출력으로 빈발한 순차 패턴을 빠르게 탐사할 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다. 제안하는 기법은 다른 가중치 순차 패턴 탐사 기법과의 비교를 통해 동적 가중치 탐사 기법의 중요성을 보인다.

RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘 (Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform)

  • 박인규
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.229-236
    • /
    • 2017
  • 효율적인 빈발 패턴 알고리즘은 연관 규칙 마이닝이나 융복합을 위한 마이닝 과정에서 필수적인 요소이며 많은 활용성을 가지고 있다. 패턴 마이닝을 위한 많은 모델들이 빈발 패턴에 관한 정보를 추출하여 FP-트리를 이용하여 저장하고 있다. 본 논문에서는 항목들의 무게중심을 이용한 새로운 빈발 패턴 알고리즘(CAWFP-Growth)을 제안하여 항목들이 가지는 가중치와 빈도수를 같이 고려하여 항목간의 중심을 계산하여 기존의 FP-Growth 알고리즘의 효율성을 향상시킨다. 제안한 방법은 하향 폐쇄의 성질을 유지하기 위한 기존의 전역적 최대치 가중치 지지도를 필요로 하지 않기 때문에 자연히 빈발 패턴의 탐색시간이 줄어들고 정보의 손실을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 기존의 동적가중치를 이용하는 다른 방법과 비교해볼 때, 항목들의 무게중심이 빈발패턴의 정확한 정보를 유지하고 FP-트리의 처리시간을 줄여주기 때문에 제안한 방법의 중요성을 보이고 있다 또한 가상 분산모드에서 맵리듀스 프레임을 기반으로 빅데이터를 모델링하고 향후 완전분산 모드에서 제안한 알고리즘의 모델링이 필요하다.

시퀀스 빈발도와 가중치를 이용한 최적 이동 패턴 탐사 (Optimal Moving Pattern Mining using Frequency of Sequence and Weights)

  • 이연식;박성숙
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.79-93
    • /
    • 2009
  • 사용자들의 특성에 맞게 개인화되고 세분화된 위치 기반 서비스를 개발하기 위한 목적으로 시공간 상에서 발생하는 이동 객체의 다양한 패턴들 중 의미있는 유용한 패턴을 추출하기 위한 시공간 패턴 탐사가 필요하다. 이에 본 논문에서는 방대한 이동 객체의 이력 데이터로부터 패턴 탐사를 통해 실세계에 적용 가능한 위치 기반 서비스의 개발에 대한 응용으로, STOMP(F)[25]에서 정의한 최적의 이동 패턴을 탐사하는 문제들을 기반으로 시간 및 공간 제약을 갖는 패턴을 추출하기 위한 새로운 탐사 기법인 STOMP(FW)를 제안한다. 제안된 기법은 패턴 빈발도 만을 이용한 기존 연구(STOMP(F)[25])에 가중치(거리, 시간, 비용 등)를 복합적으로 이용하는 패턴 탐사 방법으로, 특정한 지점들 사이를 이동한 객체의 이동 패턴들 중 패턴 빈발도가 특정 임계치 이상이고 가중치가 가장 적게 소요되는 이동 패턴을 최적 경로로 결정하는 방법이다. 제안된 방법의 패턴 탐사는 경험적인 이동 이력을 사용함으로써 기존의 최적 경로 탐색 기법들($A^*$, Dijkstra 알고리즘)이나 빈발도 만을 이용한 방법들 보다 접근하는 노드 수가 상대적으로 적어 보다 빠르고 정확하게 최적 패턴을 탐색할 수 있음을 보인다.

  • PDF

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF

공간 개념 계층에 따른 STOMP(FW) 알고리즘의 정확도 분석 (Precision Analysis of the STOMP(FW) Algorithm According to the Spatial Conceptual Hierarchy)

  • 이연식;김영자;박성숙
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5015-5022
    • /
    • 2010
  • 기존의 패턴 탐사 기법들은 대부분 객체가 갖는 공간 정보의 연속적인 변화에 대한 패턴 탐사는 가능하나, 추출하고자 하는 패턴에 반드시 포함되어야 하는 공간 정보에 대한 제약이 없어 특정 지점들 사이의 최적 경로 탐색 문제나 단위기간 동안 이동 객체가 순회해야 하는 지점들에 대한 경로 예측 문제 등에 적용하기 어렵다. 본 논문에서는 Road Network 상의 특정한 지점들 사이를 이동한 객체의 위치 데이터들 중 최다 빈발 패턴과 시간 및 비용 등의 가중치를 복합적으로 고려하여 최적의 이동 경로를 탐색하는 방법(Spatial-Temporal Optimal Moving Pattern(with Frequency & Weight) algorithm)[13]을 이용하여, 공간 개념 계층에 따른 경로 탐색의 정확도를 분석한다. 분석의 결과는 패턴 탐사 과정에 있어 공간 제약을 적용하여 검색 데이터 범위를 축소함으로써 데이터베이스 검색 시간을 최소화함을 보이고, 또한 공간 추상 계층의 각 계층별 영역 내 포함여부를 고려함으로써 효율적으로 최적 이동 패턴을 탐색하여 제공하도록 한다.

M54 코드 질환에 대한 부산대학교 한방병원의 본초 사용 내역 분석(3) (Frequency Analysis of Clinical Prescriptions in the Korean Medicine Hospital, Pusan National University based on Herb Weight Ratio(3) - Focusing on Back Pain and Nape Pain -)

  • 이병욱
    • 한국의사학회지
    • /
    • 제28권1호
    • /
    • pp.93-102
    • /
    • 2015
  • Objectives : The aim of this paper is finding the combinations of the medicinal herbs that are used frequently by analyzing the details of the herbal medicinal prescriptions used by the patients who were diagnosed with M54 code diseases. In addition, I will seek to assess the demonstrative pattern that frequently manifest in the M54 code disease patients by using the combinations of the medicinal herbs that are used frequently. Methods : After having extracted the prescription administered to the patients with the diagnostic code of M54, find the relevance with the demonstrative pattern by analyzing the combination for each of the medicinal herb effectiveness. Use the list of medicinal herbs utilized in the corresponding prescription to examine the most frequent combination of the medicinal herbs through the generation of up to 25 arbitrary combinations of the medicinal herbs. Results & Conclusions : As the results of the analysis of the details of the use of the prescribed herbal medicine packages by the Korean Medicine Hospital of Pusan National University, regarding the back pain of the diagnostic code M54, the prescriptions that corresponded to the kidney deficiency pattern, static blood pattern, wind pattern, dampness pattern, food accumulation pattern, qi depression pattern and phlegm-retained fluid pattern back pain among the back pain classifications under the Dongeuibogam (東醫寶鑑) were used frequently, and, regarding the Nape Pain, prescriptions that corresponded to the pain arising from the wind-dampness and phlegm the 'Taeyang meridian' was most frequent.

여고생의 비만도에 따른 식습관과 식품섭취에 관한 연구 (A Study on Eating Habits and Food consumption pattern among High school girls)

  • 노희경
    • 한국식생활문화학회지
    • /
    • 제13권3호
    • /
    • pp.207-214
    • /
    • 1998
  • This study was undertaken to assess eating habits and food consumption pattern of 365 adolescent girls in Kwangju area. Subjects were divided into 3 groups based on relative body weight as obesity index. Anthropometric data showed that mean height and weight were $161.9{\pm}19.0cm$ and $53.3{\pm}7.2kg$ respectively which are similar to those in the Korean Standard Growth data. Mean BMI and relative body weight were 20.50 and 97.1%. Age of menarche in the subjects significantly influenced the obesity index. Food habit score in the underweight group was significantly lower than that in the normal group at ${\alpha}=0.2$ level by multiple range test. Obesity was significantly associated with more frequent and irregular eating. It seems that students in the obese group were concerned on their body weight and tended to consume much vegetable. Obese group consumed more fruits, less butter and fruit juice compared to other groups. It might be suggested that more effective nutrition program might be developed and implemented to ensure good food habit of adolescent girls including obese as well as underweight group.

  • PDF