• 제목/요약/키워드: Apriori algorithms

검색결과 19건 처리시간 0.024초

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.

전략적 중요도를 고려한 연관규칙 탐사 (Association Rule Mining Considering Strategic Importance)

  • 최덕원;신진규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2007
  • A new association rule mining algorithm, which reflects the strategic importance of associative relationships between items, was developed and presented in this paper. This algorithm exploits the basic framework of Apriori procedures and TSAA(transitive support association Apriori) procedure developed by Hyun and Choi in evaluating non-frequent itemsets. The algorithm considers the strategic importance(weight) of feature variables in the association rule mining process. Sample feature variables of strategic importance include: profitability, marketing value, customer satisfaction, and frequency. A database with 730 transaction data set of a large scale discount store was used to compare and verify the performance of the presented algorithm against the existing Apriori and TSAA algorithms. The result clearly indicated that the new algorithm produced substantially different association itemsets according to the weights assigned to the strategic feature variables.

  • PDF

전략적 중요도를 고려한 연관규칙의 발견: WARM (Association Rule Discovery Considering Strategic Importance: WARM)

  • 최덕원
    • 정보처리학회논문지D
    • /
    • 제17D권4호
    • /
    • pp.311-316
    • /
    • 2010
  • 본 논문은 가중치를 고려한 연관규칙탐사 알고리즘(WARM)을 제시한다. 각 전략적 요소항목에 가중치를 부여하는 것과, 각 전략요소 항목별로 원시 자료값을 정규화하는 것이 이 논문에서 제시하는 알고리즘의 중요한 내용을 구성하고 있다. 본 논문은 TSAA 알고리즘을 확장 발전 시킨 연구로서 전략적 중요도를 반영하는 항목으로는 각 품목의 이익기여도, 마케팅 가치, 고객만족도 등을 사용하였다. 한 대형할인점의 실제 거래자료를 사용하여 알고리즘의 성능을 검사하였으며, Apriori, TSAA 및 WARM의 세 가지 알고리즘을 사용한 탐사결과를 비교 분석하였다. 분석의 결과 세 가지 알고리즘은 연관분석 행태에 있어서 각각 독특한 탐사행태를 보이는 것으로 나타났다.

웹 로그 분석을 이용한 추천 에이전트의 개발 (Development of Recommendation Agents through Web Log Analysis)

  • 김성학;이창훈
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.621-630
    • /
    • 2003
  • 웹 로그는 사용자가 웹 사이트의 데이터를 액세스할 때 웹 서버에 의해 기록되는 정보로써 최근 인터넷 이용의 급속한 증가로 인해 웹 로그의 활용가치가 더욱 중요하게 되었으며, 웹 로그의 분석 결과는 쇱 사용자들의 행위를 나타내는 패턴을 분석하거나 웹 사이트의 구조를 재배치 하는데 이용될 수 있다. 이를 실현하기 위한 많은 연구들은 주로 연관규칙과 순차패턴을 이용하고 있는데, 대다수는 Apriori 알고리즘을 기본으로 하고 있어서 대용량의 데이터베이스에 적용하기에는 컴퓨팅 시간적 측면에서 비효율적이다. 따라서 본 논문에서는 웹 환경에서 흥미있는 패턴을 탐사하는 새로운 알고리즘을 개발하여 보다 빠르게 패턴탐사를 수행하고, 많은 사용자들이 관심있게 순차적으로 접근하고 있는 정보를 시스템 관리자에게 제공할 수 있는 추천에이전트를 개발한다.

  • PDF

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

U-마켓에서의 매장 추천방법 (A Store Recommendation Procedure in Ubiquitous Market)

  • 김재경;채경희;김민용
    • 지능정보연구
    • /
    • 제13권4호
    • /
    • pp.45-63
    • /
    • 2007
  • 유비쿼터스 환경에 기반한 시장, 즉 U-마켓에서는 고객이 제품을 구매함과 동시에 고객의 정보가 u-마켓 서버시스템에 저장되어 인터넷 쇼핑몰과 같이 다양한 분석과 활용이 가능하게 되었다. 물리적인 공간과 가상 공간이 결합된 유비쿼터스 기반의 시장 환경에서는 고객이 오프라인에서 다양한 매장을 방문하면서 쇼핑을 하게 되는데, 이때 여러 매장에 동일한 제품이 동시에 존재할 수 있으므로 매장의 위치, 매장 분위기, 제품의 품질이나 가격 등에 대한 고객의 선호도를 반영하여 고객 개개인에게 적절한 매장을 추천해야 할 필요성이 제기된다. 본 논문에서는 유비쿼터스 환경에 기반한 시장에서 고객의 쇼핑 상황을 고려하여 고객의 선호를 반영할 수 있는 매장 추천방법을 제안한다. 제안한 매장 추천방법은 협업 필터링과, Apriori 알고리즘을 기반으로 구성되어 있다. 온라인 쇼핑몰과는 다르게 U-마켓에서는 고객 개개인의 구매목록과 고객의 선호도를 반영한 매장 추천이 필요하며, 본 논문에서 제안하고 있는 매장 추천방법은 고객의 쇼핑경험을 극대화 하고 쇼핑 효율성을 제고시킬 뿐 아니라 장기적인 관점에서 매출증대를 통해 U-마켓 활성화에 기여할 수 있을 것으로 기대한다.

  • PDF

네트워크 침입 탐지를 위한 Coverage와 Exclusion 기반의 새로운 연관 규칙 마이닝 (A New Association Rule Mining based on Coverage and Exclusion for Network Intrusion Detection)

  • 김태연;한경현;황성운
    • 사물인터넷융복합논문지
    • /
    • 제9권1호
    • /
    • pp.77-87
    • /
    • 2023
  • 네트워크 침입 탐지 작업에 다양한 연관 규칙 마이닝 알고리즘을 적용하는 데에는 두 가지 중요한 문제가 있다. 생성된 규칙 집합의 크기가 너무 커서 IoT 시스템에서 활용하기 어렵고, 거짓 부정/긍정 비율을 제어하기 어렵다. 본 연구에서는 coverage와 exclusion이라는 새로 정의된 척도에 기반을 둔 연관 규칙 마이닝 알고리즘을 제안한다. Coverage는 한 클래스의 트랜잭션에서 패턴이 발견되는 빈도를 나타내고, exclusion은 다른 클래스의 트랜잭션에서 패턴이 발견되지 않는 빈도를 나타낸다. 우리는 KDDcup99라는 공개 데이터 세트를 사용하여 가장 유명한 알고리즘인 Apriori 알고리즘과 실험적으로 제안된 알고리즘을 비교한다. Apriori와 비교하여 제안된 알고리즘은 정확도를 완전히 유지하면서 생성되는 규칙 집합 크기를 최대 93.2%까지 줄인다. 또한, 제안된 알고리즘은 생성된 규칙의 거짓 부정/긍정 비율을 매개변수별로 완벽하게 제어한다. 따라서 네트워크 분석가는 두 가지 문제를 해결함으로써 제안한 연관 규칙 마이닝을 네트워크 침입 탐지 작업에 효과적으로 적용할 수 있다.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.

Apriori 알고리즘을 활용한 학습자의 성별과 학교급에 따른 온라인 수업 유형 선호도 분석 (An analysis of students' online class preference depending on the gender and levels of school using Apriori Algorithm)

  • 김진희;황두희;이상숙
    • 디지털융복합연구
    • /
    • 제20권1호
    • /
    • pp.33-39
    • /
    • 2022
  • 본 연구는 학습자 특성(성별 및 학교 급)에 따른 온라인 수업 유형 선호도를 파악하고자 하는데 그 목적이 있다. 이를 위하여 전국 17개 지역의 초·중·고등학교 학생 4,803명을 대상으로 설문조사를 실시하였다. 이후, 유효데이터인 4,524명 학생들의 성별 및 학교급을 기반한 온라인 수업 유형 선호도 패턴을 확인하기 위해 Apriori 알고리즘을 이용한 연관규칙 분석을 실시하였다. 연구결과 초등 7개, 중등 4개, 고등 5개 등 총 16개의 규칙을 도출하였으며, 학교급과 무관하게 여학생들은 메이커활동 중심 수업을, 초·중 남학생은 가상체험중심 수업을 공통적으로 선호하였다. 보다 구체적으로, 초등학교 남학생은 SW중심수업을, 여학생은 메이커활동 중심 수업을 선호하였으며, 중학생의 경우 남여 모두 가상체험중심 수업을 선호하였다. 반면 고등학생은 교과별 강의중심에 대한 선호도가 높았다. 이러한 연구결과는 학습의 주체자인 학생이 가진 온라인 수업의 요구를 설명하는 실증적 근거로서 제시될 수 있다. 또한, 본 연구는 향후 온라인 수업의 다각화를 위한 개선방향을 제시, 탐색하는 기초자료로 활용될 수 있을 것으로 기대한다. 이상의 연구결과를 바탕으로 추후 연구에서는 다양한 온라인 수업 활동 및 모델 설계, 온라인 수업을 지원하는 플랫폼 개발, 여학생의 이공계 진로동기 형성과정에 대한 심층적 분석이 계속되어야 할 것이다.

이공계 대학 연구과제 특성 별 운영 형태 현황 (An analysis of operation status depending on the characteristics of R&D projects in Sciences and Engineering universities)

  • 이상숙;유인혁;김진희
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.93-100
    • /
    • 2022
  • 본 연구는 이공계 대학 연구과제 특성(단계 및 성격)별 R&D 운영 현황을 파악하여 향후 대학 R&D 지원 체계와 연구정책에 시사점을 제공하고자 하였다. 이에 본 연구는 2021년 10월 4일부터 약 5주간 국내 이공계 대학 R&D 수령인을 대상으로 온라인 설문을 진행한 후, Apriori 알고리즘을 활용하여 445명의 유효데이터를 분석하였다. 그 결과, 기초(원천)단계 연구 10개(일반적인 연구 6개, 도전적인 연구 4개), 응용단계 연구 6개(일반적인 연구 5개, 도전적인 연구 1개) 등 총 16개의 연관규칙이 도출되었다. 또한, 이공계 대학 R&D는 연구과제의 특성과 무관하게 정부(발주처) 혹은 공공기관(연구비결정권) 등의 주도로 운영되는 공통점이 나타났으며, 특히 응용연구의 특징(단계 및 성격)과 높은 연관성이 있었다. 기초(원천)단계연구의 경우, 연구자에게 연구주제에 대한 자율성을 제공하였으나 3년 차라는 짧은 연구 기간과 3년 이상의 단위로 연구가 평가되는 특징이 있었다. 이러한 연구 결과는 이공계 대학 연구과제 특성에 따른 운영 형태를 다양한 변인 간의 연관성을 드러내는 실증적 근거로써 활용될 수 있다. 아울러, 본 연구는 향후 이공계 대학 R&D 운영 지원을 위한 정책적·재정적·운영적 지원의 개선 방향을 제시하였다.