DOI QR코드

DOI QR Code

The Path Inverted Index Technique for XML Document Retrieval

XML 문서 검색을 위한 경로 역 색인 기법

  • 문경원 ((주)NHN 검색개발센터) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Received : 2008.10.27
  • Accepted : 2010.04.12
  • Published : 2010.04.30

Abstract

Recently, many XML document management systems using the advantage of RDBMS have been actively developed for the storage, processing and retrieval of XML documents. However, fractional pattern-matching query such as the LIKE operations cannot take the advantage of the index of RDBMS because these operations have deteriorated retrieval performance through its inefficient comparison processing. The hierarchical XML storage technique which stores XML documents in RDBMS efficiently, and the path inverted index technique are proposed in this paper. It regards the element of an XML document as a keyword, and focuses on organizing a posting file with path identifiers and sequences to reduce the retrieval time of path based query. Through simulations, our methods have shown about 60% better performance than the conventional method using RDBMS in searching.

최근에 관계형 데이터베이스 관리 시스템(RDBMS)의 장점을 이용하여 XML로 표현된 문서를 효과적으로 저장, 관리, 검색하는 XML 문서관리 시스템에 대한 많은 연구들이 활발하게 진행되어 왔다. 그러나 경로 질의 중에서 LIKE 연산과 같은 부분 패턴 매칭 질의의 경우는 비효율적인 비교 연산으로 인해 검색 성능이 현저하게 떨어지기 때문에 RDBMS의 색인의 효과를 볼 수 없다. 본 논문에서는 XML 문서를 RDBMS에 효율적으로 저장하는 계층형 XML 저장 기법과 경로 역 색인 기법을 제안한다. 제안하는 기법은 XML문서의 엘리먼트를 키워드로 보고 해당 키워드가 속한 경로의 식별자와 시퀀스로 포스팅 파일을 구성하여 경로 기반 질의의 검색 속도를 향상하는데 주안점을 둔다. 검색 성능에 관한 실험을 통해서 제안된 기법이 기존의 RDBMS를 이용한 기법보다 약 60% 우수한 성능을 가지고 있음을 입증한다.

Keywords

References

  1. J. McHugh, S. Abiteboul, R. Goldman, D. Quass, and J. Widom, "Lore: A Database Management System for Semistructured Data," ACM SIGMOD Record, Vol.26, No.3, pp.54-66, 1997. https://doi.org/10.1145/262762.262770
  2. R. Goldman and J. Widom, "Dataguides: Enabling Query Formulation and Optimization in Semistructured Databases," Proc. of the 23rd Int'l Conf. on Very Large Databases, pp.436-445, 1997.
  3. C. Chung, J. Min, and K. Shim, "APEX: An Adaptive Path Index for XML Data," Proc. of the Int'l Conf. on ACM SIGMOD, pp.121-132, Madison, Wisconsin, June, 2002. https://doi.org/10.1145/564691.564706
  4. R. Kaushik, P. Shenoy, P. Bohannon, and E. Gudes, "Exploiting Local Similarity for Indexing Paths in Graph-Structured Data," Proc. of the 18th IEEE Int'l. Conf. on Data Engineering, pp.129-140, 2002. https://doi.org/10.1109/ICDE.2002.994703
  5. B. F. Cooper, N. Sample, M. J. Franklin, G. R. Hjaltason, and M. Shadmon, "A Fast Index for Semistructured Data," Proc. of the 27th Int'l Conf. on Very Large Databases, pp.341-350, Rome, Italy, Sep., 2001.
  6. J. Yoon, V. Raghavan, V. Chakilam, and L. Kerschberg, "BitCube: A Three-Dimensional Bitmap Indexing for XML Documents," J. of Intelligent Information Systems, Vol.17, pp. 241-254, 2001. https://doi.org/10.1023/A:1012861931139
  7. J. Yoon, V. Raghavan, and V. Chakilam, "BitCube: Clustering and Statistical Analysis for XML Documents," Proc. of the 13th Int'l Conf. on Scientific and Statistical Database Management, Virginia, 2001.
  8. 이재민, 황병연, "xPlaneb: XML 검색을 위한 3차원 비트맵 인 덱스," 정보과학회논문지, 31권, 3호, pp.331-339, 2004.
  9. D. Hong, "On supporting full-text retrievals in XML query," International Journal of Fuzzy Logic and Intelligent Systems Vol.7, No.4, pp.274-278, 2007. https://doi.org/10.5391/IJFIS.2007.7.4.274
  10. M. Yoshikawa and T. Amagasa, "XRel: A Path-Based Approach to Storage and Retrieval of XML Documents using Relational Databases," ACM Transactions on Internet Technology, Vol.1, No.1, pp.110-141, 2001. https://doi.org/10.1145/383034.383038
  11. R. Krishnamurthy, R. Kaushik, and J. Naughton. "XML-to- SQL Query Translation Literature: The State of the Art and Open Problems," Proc. of the 1st Int'l XML Database Symposium, pp.1-18, Berlin, Germany, Sep., 2003.
  12. H. Jiang, H. Lu, W. Wang, and J. X. Yu, "Path Materialization Revisited: An Efficient Storage Model for XML Data," Proc. of the 13th Australian Database Conference, pp.85-94, Melbourne, Australia, Jan., 2002.
  13. 정민경, 홍동권, 남재열, "XML을 RDBMS에 저장하기 위한 Analyzer 설계 및 구현," 한국정보과학회 2005 한국컴퓨터종합 학술대회 논문집, pp.148-150, 2005.
  14. 김재훈, 여준호, 이규철, "메모리-상주 관계형 DBMS에서 XML 데이터 처리를 위한 효율적인 저장 기법," 한국정보과학회 2008 가을 학술발표논문집 제35권 제2호, pp.55-59, 2008.
  15. http://us.imdb.com/top_250_films
  16. http://about.reuters.com/newsml