Representing and retrieving the Structured Information of XML Documents

XML 문서에 포함된 구조 정보의 표현과 검색

  • Jo, Yun-Gi (Dept. of Computer Science, Graduate School of Chungbuk National University) ;
  • Jo, Jeong-Gil (Dept. of Computer Science, Graduate School of Chungbuk National University) ;
  • Lee, Byeong-Ryeol (Dept. of Computer Science, Graduate School of Chungbuk National University) ;
  • Gu, Yeon-Seol (Dept. of Computer Engineering, Chungbuk National University)
  • 조윤기 (충북대학교 대학원 전자계산학과) ;
  • 조정길 (충북대학교 대학원 전자계산학과) ;
  • 이병렬 (충북대학교 대학원 전자계산학과) ;
  • 구연설 (충북대학교 컴퓨터과학과)
  • Published : 2001.08.01

Abstract

As growing the number of Webs, the total amount of accessible information has been greater than ever. To storage and retrieve the vast information on the Webs effectively, many researchers have been made utilizing XML (extensible Markup Language). In this paper, we propose an effective method of representation and retrieval mechanism for the structured retrieval of the XML documents : (1) the fixed sized LETID (Leveled Element Type ID) that contains the information of elements such as parent node, sibling nodes, and identical sibling nodes, and the hierachical information of current node, and (2) content index, structure index, attribute index model, and the information retrieval algorithm for the structured information retrieval. With our methods, we can effectively represent the structured information of XML documents, and can directly access the specific elements by simple operations to process various queries.

웹의 발전으로 인터넷 상의 정보 양이 증가하면서 XML을 이용하여 이들 정보를 효율적으로 저장하고 검색하기 위한 많은 연구들이 진행되고 있다. 이 논문에서는 XML 문서의 효율적인 관리와 구조 검색을 위해 구조 정보 표현과 검색 메카니즘을 제안한다. 기존의 방법은 특정 엘리먼트의 부모, 자식, 형제 엘리먼트에 대한 다양한 구조 검색을 효율적으로 지원하지 못한다. 이 논문에서는 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 부모 노드와 현재 노드의 계층 정보, 형제 노드 및 동일한 형제 노드의 순서 정보를 갖는 고정된 크기의 LETID를 제안한다. 또한, 구조 정보를 검색하기 위해 내용 색인, 구조 색인 그리고 애트리뷰트 색인 모델과 구조 정보 검색 알고리즘을 제안한다. 제안한 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현 할 수 있을 뿐 아니라 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다.

Keywords

References

  1. Brain Lowe, Justin Zobel, Ron Sacks-Davis 'A Formal Model for Databases of Structured Text,' Proceedings of the Fourth International Conference on Database Systems for Advanced Applications (DASFAA '95), pp.449-456, 1995
  2. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Exten-sible Markup Language(XML)1.0, REC-xml-1998
  3. W3C, 'Extensible Markup Language(XML) 1.0,' http://www.w3c.org/TR/1998/REC-xml-1998210.html, 1998
  4. Toung Dao 'An Indexing Model for Structured Documents to Support Queries on Content, Structure and Attributes,' Proceedings of ADL'98, pp.88-97, 1998 https://doi.org/10.1109/ADL.1998.670383
  5. V. Christophides, et al. 'From Structured Documents to Novel Query Facilities,' ACM SIGMOD, pp.313-324, Mine-sota, USA, 1994 https://doi.org/10.1145/191839.191901
  6. Sung-Geun Han, Jeong-Han Son, Jae-Woo Chang Zong-Cheol Zhoo, 'Design and Implementation of a Structured Information Retrieval System for SGML Documents,' IEEE, pp.81-88, 1999 https://doi.org/10.1109/DASFAA.1999.765739
  7. T. Dao, R. Sacks-Davis and J. A. Thom 'An indexing scheme for structured documents and its implementation,' In Proceedings of the 5th International Conference on Database Systems for Adavanced Applications, pp.125-134, Melbourne, Australia, April, 1997
  8. 이종설 외 7, '구조 정보 검색을 위한 XML 저장관리시스템 설계 및 구현'
  9. 박종관, 강형일, 손충범, 유재수 'XML 문서에 대한 효율적인 구조 기반 검색을 위한 색인 모델,' 2000 추계학술발표논문집, 한국정보과학회, pp.18-20, 2000
  10. 박종관, 'XML 문서에 대한 효율적인 구조 기반 검색을 위한 색인 모델', 충북대학교 석사학위논문, 2001
  11. 고혜경, 조윤기, 조정길, 이병렬, 구연설, '효율적인 구조 정보 검색을 위한 색인 모델', 2001 춘계학술발표논문집(A), 한국정보과학회, pp.649-651, 2001