PdR-Tree : An Efficient Indexing Technique for the improvement of search performance in High-Dimensional Data

PdR-트리 : 고차원 데이터의 검색 성능 향상을 위한 효율적인 인덱스 기법

  • 조범석 (명지대학교 컴퓨터공학과 데이터베이스 연구실) ;
  • 박영배 (명지대학교 컴퓨터공학과)
  • Published : 2001.04.01

Abstract

The Pyramid-Technique is based on mapping n-dimensional space data into one-dimensional data and expressing it as B-tree ; and by solving the problem of search time complexity the pyramid technique also prevents the effect \"phenomenon of dimensional curse\" which is caused by treatment of hypercube range query in n-dimensional data space. The Spherical Pyramid-Technique applies the pyramid method’s space division strategy, uses spherical range query and improves the search performance to make it suitable for similarity search. However, depending on the size of data and change in dimensions, the two above technique demonstrate significantly inferior search performance for data sizes greater than one million and dimensions greater than sixteen. In this paper, we propose a new index-structured PdR-Tree to improve the search performance for high dimensional data such as multimedia data. Test results using simulation data as well as real data demonstrate that PdR-Tree surpasses both the Pyramid-Technique and Spherical Pyramid-Technique in terms of search performance.

피라미드 기법은 n-차원 공간 데이터를 1차원 데이터로 변환하여 $B^+$-트리로 표현하고, n-차원 데이터 공간에서 하이퍼큐브 영역질의 처리로 발생하는 "차원의 저주현상"에 영향을 받지 않게 검색 시간 문제를 해결하고 있다. 구형 피라미드 기법은 피라미드 기법의 공간 분할 전략을 응용하여 유사도 검색에 적합하도록 구 영역질의 방법을 사용하고 검색 성능을 개선하고 있다. 그러나 두 방법은 데이터 크기와 차원 변화에 따른 검색 성능이 100만건 이상과 16차원 이상일 때 현저하게 저하하는 현상을 보이고 있다. 이 논문에서는 멀티미디어 데이터와 같은 고차원 데이터의 검색 성능을 향상시키기 위한 새로운 인덱스 구조로 PdR-트리를 제안한다. 모의 데이터와 실제 데이터를 이용하여 실험한 결과, PdR-트리가 피라미드 기법과 구형 피라미드 기법보다 검색 성능이 향상되었음을 보이고 있다.

Keywords

References

  1. J. M. Hellerstein, E. Koutsoupias, C. H. Papadimitriou, 'On the Analysis of Schemes,' ACM PODS, pp.249-256, 1997
  2. R Weber, H. J. Schck, S. Blott, 'A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces. 24th VLDB Conference,' NY, USA, 1998
  3. C. C. Chang, S. Y. Lee, 'Retrieval of Similar Pictures on Pictorial Databases,' Pattern Recognition 24, pp.675-680, 1991 https://doi.org/10.1016/0031-3203(91)90034-3
  4. K. Aizawa, H. Harashima, 'Model based image coding,' SPIE/IS, Electronic Imaging, Vol.4-1, pp.1-2, 1994
  5. A. D. Bimbo, P. Pala, S. Santini, 'Image Retrieval by Elastic Matching of Shapes and Image Patterns,' Proceeding of the int'l conf. on multimedia computing and systems, Japan, 1996
  6. S. Berchtold, C. Bohm, H-P. Kriegel. 'The Pyramid-Technique: Towards Breaking the Curse of Dimensionality,' Proc. ACM SIGMOD Int. Conf. on Management of Data, 1998 https://doi.org/10.1145/276304.276318
  7. R. Weber, S. Blott, 'An Approximation-Based Data Structure for Similarity Search,' Esprit Project Hermes, technical report Oct, 1997
  8. A. Hinneburg, D. A. Keim. 'Optimal Grid_Clustering : Towards Breaking the Curse of Dimensionality in High-Dimensional Clustering,' proceedings of the 25th VLDB Conference, Edinburgh, Scotland, 1999
  9. S. Berchtold, D. A. Keim, H. P. Kriegel, 'The X-tree : An Index Structure for High-Dimension Data,' 22nd VLDB Conference, 1996
  10. N. Katayama, S. Satoh, 'The SR-tree : An Index Structure for High-Dimensional Nearest Neighbor Queries,' ACM SIGMOD, 1997 https://doi.org/10.1145/253262.253347
  11. N. Beekermann, H. P. Kriegel, R. Schneider, B. Seeger, 'The R*-tree : An Efficient and Robust Access Method for Points and Rectangles,' ACM, 1990 https://doi.org/10.1145/93597.98741
  12. 조범석, 박영배, '색상과 모양특징을 이용한 효율적인 이미지 검색기법', 제27회 한국정보과학회 춘계학술대회발표 논문집, 2000
  13. D. A. White, R. Jain, 'Similarity Indexing with the SS-tree,' IEEE, 1995 https://doi.org/10.1109/ICDE.1996.492202
  14. L. I. Lin, H. V. Jagadish, C. Faloutsos, 'The Tv-tree-an index structure for high-dimensional data,' VLDB, 1995
  15. 이혜명, 임채명, 박영배, '시계열 패턴을 위한 dR-트리', 한국정보과학회, 가을학술발표논문집(A), 1996
  16. P. Ciaccia, M. Patella, P. Zczula, 'M-tree : An Efficient Access Method for Similarity Search in Metric Spaces,' 23rd VLDB Conference, 1997
  17. A. Henrich, 'The LSDh-tree : An Access Structure for Feature Vectors,' ICDE, 1998
  18. 이동호, 송용준, 김형주, 'SCARLET: 웨이브릿 변환을 이용한 내용기반 이미지검색 시스템의 살계 및 구현', 한국정보과학회 논문지(C), 3(4), 1997
  19. 이동호, 정진완, 김형주, '고차원 데이터의 유사성 검색을 위한 효율적인 색인기법', 한국정보과학회 논문지(B), 제26권 제11호, 1999