SuffixSpan: A Formal Approach For Mining Sequential Patterns

SuffixSpan: 순차패턴 마이닝을 위한 형식적 접근방법

  • 조동영 (전주대학교 정보기술컴퓨터공학부)
  • Received : 2002.09.25
  • Accepted : 2002.10.28
  • Published : 2002.10.30

Abstract

Typical Apriori-like methods for mining sequential patterns have some problems such as generating of many candidate patterns and repetitive searching of a large database. And PrefixSpan constructs the prefix projected databases which are stepwise partitioned in the mining process. It can reduce the searching space to estimate the support of candidate patterns, but the construction cost of projected databases is still high. For efficient sequential pattern mining, we need to reduce the cost to generate candidate patterns and searching space for the generated ones. To solve these problems, we proposed SuffixSpan(Suffix checked Sequential Pattern mining), a new method for sequential pattern mining, and show a formal approach to our method.

GSP와 같은 Apriori-like 순차패턴 마이닝 방법들은 마이닝 과정에서 많은 후보패턴들을 생성하고, 대용량 데이타베이스의 반복적인 탐색을 필요로 하는 문제점이 있다. 그리고 후보패턴들의 탐색공간을 줄이기 위해 단계별로 프레픽스-프로젝티드 (prefix-projected) 데이터베이스를 구성하는 PrefixSpan 방법은 탐색공간을 줄이지만 프로젝티드 데이터베이스의 구성비용이 문제가 된다. 효율적인 순차패턴 마이닝을 위해서는 후보패턴의 생성비용과 탐색공간을 모두 줄여야 한다. 본 논문에서는 이를 위한 새로운 순차패턴 마이닝 방법인 SuffixSpan(Suffix checked Sequential Pattern mining)을 설명하고, 이에 대한 형식적 접근을 보인다.

Keywords