DOI QR코드

DOI QR Code

An Efficient Subsequence Matching Method Based on Index Interpolation

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법

  • 노웅기 (한국과학기술원 전산학과) ;
  • 김상욱 (한양대학교 정보통신대학 정보통신학부)
  • Published : 2005.06.01

Abstract

Subsequence matching is one of the most important operations in the field of data mining. The existing subsequence matching algorithms use only one index, and their performance gets worse as the difference between the length of a query sequence and the site of windows, which are subsequences of a same length extracted from data sequences to construct the index, increases. In this paper, we propose a new subsequence matching method based on index interpolation to overcome such a problem. An index interpolation method constructs two or more indexes, and performs search ing by selecting the most appropriate index among them according to the given query sequence length. In this paper, we first examine the performance trend with the difference between the query sequence length and the window size through preliminary experiments, and formulate a search cost model that reflects the distribution of query sequence lengths in the view point of the physical database design. Next, we propose a new subsequence matching method based on the index interpolation to improve search performance. We also present an algorithm based on the search cost formula mentioned above to construct optimal indexes to get better search performance. Finally, we verify the superiority of the proposed method through a series of experiments using real and synthesized data sets.

서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

Keywords

References

  1. R. Agrawal et al., 'Efficient Similarity Search in Sequence DataBases,' In Proc. Int'l Conf. on Foundations of Data Organization and Algorithms, FODO, pp.69-84, Oct., 1993
  2. R. Agrawal et al. 'Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Database,' In Proc. Int'l Conf. on Very Large Data Bases, VLDB, pp. 490-501, Sept., 1995
  3. N. Beckmann et al., 'The R*-tree: An efficient and Robust Access Method for Points and Rectangles,' In Proc Int'l Conf. on Mamgement of data ACM SIGMOD, pp.322-331, May, 1990
  4. C. Chatfield, The Analysis of Time-Series: An Introduction, 3rd Ed., Chapman and Hall, 1984
  5. K. P. Chan and A. W. C. Fu, 'Efficient Time Series Matching by Wavelets,' In Proc. Int'l Conf. on Data Engineering, IEEE ICDE, pp.126-133, Mar., 1999 https://doi.org/10.1109/ICDE.1999.754915
  6. K. K. W. Chu and M. H. Wong, 'Fast Time-Series Searching with Scaling and Shifting,' In Proc. Int'l Symposium on Principles of Database Systems, ACM PODS, pp.237-248, May, 1999 https://doi.org/10.1145/303976.304000
  7. M. S. Chen et al., 'Data Mining: An Overview from Database Perspective,' IEEE Trans. on Knowledge and Data Engineering, Vol.8, No.6, pp.866-883, June, 1996 https://doi.org/10.1109/69.553155
  8. C. Faloutsos et al., 'Fast Subsequence Matching in Time-series Databases,' In Proc Int'l Conf. on Management of Data, ACM SIGMOD, pp.419-429, May, 1994 https://doi.org/10.1145/191843.191925
  9. D. Q. Goldin and P. C. Kanellakis, 'On Similarity Queries for Time-Series Data: Constraint Specification and Implementation,' In Proc. Int'l Conf. on Principles and Practice of Constraint Programming, pp.137-153, Sept., 1995
  10. W. K. Loh et al., 'Index Interpolation: A Subsequence Matching Algorithm Supporting Moving Average Transform of Arbitrary Order in Time-Series Databases,' IEICE Transactions on Information and Systems, Vol.E84-D, No.1, pp.76-86, Jan., 2001
  11. W. K. Loh et al., 'A Subsequence Matching Algorithm that Supports Normalization Transform in Time-Series Databases,' Data Mining and Knowledge Discovery, Vol. 9, No. 1, pp. 5-28, July 2004 https://doi.org/10.1023/B:DAMI.0000026902.89522.a3
  12. Y. S. Moon et al., 'Duality-Based Subsequence Matching in Time-Series Databases,' In Proc. Int'l Conf. on Data Engineering, IEEE ICDE, pp.263-272, Apr., 2001 https://doi.org/10.1109/ICDE.2001.914837
  13. D. Rafiei and A. Mendelzon, 'Similarity-based Queries for Time-Series Data,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp.13-24, June, 1997 https://doi.org/10.1145/253260.253264
  14. D. Rafiei, 'On Similarity-Based Queries for Time Series Data,' In Proc. Int'l Conf. on Data Engineering, IEEE ICDE, pp.410-417, Mar., 1999
  15. R. Weber et al., 'A Quantitative Analysis and Performance Study for Similarity Search Methods on High-Dimensional Spaces,' In Proc. Int'l Conf. on Very Large Data Bases, VIDB, pp.194-205, Aug., 1998