DOI QR코드

DOI QR Code

Efficient Inverted List Search Technique using Bitmap Filters

비트맵 필터를 이용한 효율적인 역 리스트 탐색 기법

  • 권인택 (전북대학교 전자정보공학부) ;
  • 김종익 (전북대학교 컴퓨터공학부)
  • Received : 2011.08.04
  • Accepted : 2011.09.20
  • Published : 2011.12.31

Abstract

Finding similar strings is an important operation because textual data can have errors, duplications, and inconsistencies by nature. Many algorithms have been developed for string approximate searches and most of them make use of inverted lists to find similar strings. These algorithms basically perform merge operations on inverted lists. In this paper, we develop a bitmap representation of an inverted list and propose an efficient search algorithm that can skip unnecessary inverted lists without searching using bitmap filters. Experimental results show that the proposed technique consistently improve the performance of the search.

텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 Suffix 필터링 과정에서 역 리스트의 탐색 비용을 줄이기 위해 역 리스트의 통계 정보인 비트맵 필터를 사용하는 기법을 제안한다. 제안하는 기법은 비트맵 필터를 사용하여 Suffix 필터링 과정에서 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 Suffix 필터링 알고리즘보다 더 효율적임을 보인다.

Keywords

References

  1. 권인택, 김종익, "비트맵 필터를 이용한 효율적인 유사 문자열 검색 기법", 제 35회 한국정보처리학회 춘계학술대회 논문집, 제 18권 제 1호, pp.1298-1301, 2011.
  2. S. Sarawagi and A. Kirpal, "Efficient set joins on similarity predicates," SIGMOD, pp743-755, 2004.
  3. C. Xiao, W. Wang, and X. Lin, "Ed-Join: an efficient algorithm for similarity joins with edit distance constraints," VLDB, 2008. https://doi.org/10.1145/1453856.1453957
  4. S. Chaudhuri, V. Ganti, and R. Kaushik, "A Primitive Opeartor for Similarity Joins in Data Cleaning," ICDE, pp.5-5, 2006. https://doi.org/10.1109/ICDE.2006.9
  5. C. Xiao, W. Wang, X. Lin, and Jeffrey Xu Yu, "Efficient Similarity Joins for Near Duplicate Detection", WWW, 2008.
  6. Roberto J. Bayardo, Y. Ma, and R. Crikant, "Scaling Up All Pairs Simialrity Search", WWW, 2007.
  7. Leonardo Andrade Ribeiro, and Theo Harder, "Generalizing prefix filtering to improve set similarity joins", Information Systems, 2010. https://doi.org/10.1016/j.is.2010.07.003
  8. C. Li, J. Lu, and Y. Lu, "Efficient Merging and Filtering Algorithms for Approximate String Searches," ICDE, pp.257-266, 2008. https://doi.org/10.1109/ICDE.2008.4497434
  9. A. Behm, S. Ji, C. Li, and J. Lu, "Space-Constrained Gram-Based Indexing for Efficient Approximate String Search," ICDE, pp.604-615, 2009. https://doi.org/10.1109/ICDE.2009.32
  10. C. Li, B. Wang, and X. Yang, "VGRAM: Improving Performance of Approximate Queries on String Collections Using Variable-Length Grams," VLDB, pp.303-314, 2007.
  11. X. Yang, B. Wang, and C. Li, "Cost-Based Variable-Length-Gram Selection for String Collections to Support Approximate Queries Efficiently," SIGMOD, 2008. https://doi.org/10.1145/1376616.1376655
  12. A. Arasu, V. Ganti, and R. Kaushik, "Efficient Exact Set-Similarity Joins," VLDB, pp.918-929, 2006.
  13. K. Chakrabarti, S. Chaudhuri, V. Ganti, and D. Xin, "An Efficient Filter for Approximate Membership Checking," SIGMOD, 2008.
  14. S. Chaudhuri, K. Ganjam, V. Ganti, R. Kapoor, Vivek R. Narasayya, Theo Vassilakis, "Data cleaning in microsoft SQL server 2005," SIGMOD, pp.918-920, 2005.
  15. N. Okazaki and J. Tsujii, "Simple and Efficient Algorithm for Approximate Dictionary Matching," In proc. of the 23rd International Conference on Computational Linguistics, pp.851-859, 2010.
  16. J. Barbay and C. Kenyon, "Adaptive intersection and t-threshold problems," SODA, pp.390-399, 2002.
  17. N. Koudas, S. Sarawagi, and D. Srivastava, "Record linkage: Similarity measures and algorithms," SIGMOD, 2006.