DOI QR코드

DOI QR Code

Technique for extracting reusable XML Schema from schema-less XML Documents

스키마가 없는 XML 문서에서의 재사용 가능한 XML Schema 추출 기법

  • 조정길 (남서울대학교 컴퓨터학과) ;
  • 구연설 (충북대학교 컴퓨터과학과)
  • Published : 2003.08.01

Abstract

According to development of Web, an amount of XML documents has been increasing. So, many researches are proceeding to verify XML data coming from clients and to store or query efficiently database. In order to verify, store and query, DTD or XML Schema of XML documents is necessary. However, Schemaless XML documents couldn't be operated since they do not have either DTD or in Schema. In this paper, we extract XML schema in order to verify XML data and store or query efficiently database from either well-formed XML or XML Schemaless documents. XML Schema extracting technique which is proposed in this paper extract Schema graph using simulation and dataguide that is a extracting technique for semistructured characteristics of XML data. Also, we propose extracting technique for XML Schema using pattern tables that are considerated with Schema graph and reusability.

웹의 발전으로 인터넷상에 XML 문서의 양이 증가하면서 클라이언트에서 수신된 XML 데이터를 검증하고 데이터베이스에 효율적으로 저장하고 질의하는데 필요한 많은 연구들이 진행되고 있다. 이러한 작업들을 처리하기 위해서는 XML 문서의 DTD나 XML Schema가 필요하다. 그러나 스키마가 없는 XML 문서는 DTD나 XML Schema가 없기 때문에 이러한 작업들을 처리할 수가 없다. 이에 이 논문에서는 well-formed XML 문서이거나 XML Schema가 없는 XML 문서에서 XML 데이터를 검증하고 데이터베이스에 효율적으로 저장하고 질의할 수 있도록 XML Schema론 추출한다. 이 논문에서 제안하는 XML Schema 추출 방법은 반구조적 데이터의 스키마 추출 기법인 데이터가이드와 시뮬레이션을 적용하여 스키마가 없는 XML 문서에서 스키마 그래프를 추출한다. 그리고 스키마 그래프와 재사용성을 고려한 패턴 테이블을 이용하여 XML Schema를 추출하는 기법을 제안한다.

Keywords

References

  1. Christof Bornhovd, 'Semantic Metadata for the Integration of Web-based Data for Electronic Commerce,' IEEE, Nov., 1999 https://doi.org/10.1109/WECWIS.1999.788202
  2. 조정길, 조윤기, 구연설, '구조적 상이성 분석에 기반한XML 문서 변환 시스템의 설계 및 구현', 정보처리학회논문지D, 제9-D권 제2호, pp.297-306, 2002 https://doi.org/10.3745/KIPSTD.2002.9D.2.297
  3. S. Abiteboul, P. Bunneman, D. Suciu, 'Data on the Web : From Relations to Semistructured Data and XML,' Morgan Kaufmann, 1999
  4. P. Buneman, S. Davidson, G. Hillebrand and D.Suciu, 'A Query language and optimization techniques for unstructured data', In SIGMOD, Montreal, 1996 https://doi.org/10.1145/235968.233368
  5. R. Goldman, J. Widom, 'DataGuide : Enabling Query Formulation and Optimization In Semistructured Databases', In Proceedings of the Conference on VLDB, 1998
  6. S. Nestorov, S. Abiteboul, R. Motwani, 'Extracting Schema from Semistructured Data', In SIGMOD, pp.295-306, 1998 https://doi.org/10.1145/276304.276331
  7. 박경현, 최은선, 이종연, 박정석, 류근호, '최대/최소 경계 스키마 추출 기법을 이용한 XML문서의 DTD추출', 컴퓨터정보통신연구논문지, 2000
  8. H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman and J. Widom, 'Integration and Accessing Heterogeneous Information Sources in TSIMMIS', Proceedings of the AAAI Symposium on Information Gathering, pp. 61-64, 1995
  9. J. McHugh, S. Abiteboul, R. Goldman, D. Quass and J. Widom, 'Lore : A Database Management System for Semistructured Data', SIGMOD Recod, 26(3), September, 1997-09-00 https://doi.org/10.1145/262762.262770
  10. Roy Goldman, Jason McHugh, Jennifer Widom, 'From Semistructured Data to XML : Migrating the Lore Data Model and Query Language', WebDB(Informal Proceedings), 1999
  11. 박경현, 이경휴, 류근호, 'DTD가 없는 XML 데이터의 효율적인 저장 기법', 정보처리학회논문지D, 제8-D권 제5호, pp. 495-506, 2001
  12. M. Garofalakis, A. Gionis, R. Rastogi, S. Seshadri, K.Shim, 'XTRACT : A System for Extracting Document Type Descriptors from XML Documents', In Proc. of the ACM SIGMOD international Conf. on Management of Data, Dallas,Texas, 2000 https://doi.org/10.1145/342009.335409
  13. A. Brazma, 'Efficient identification of regular expressions from representative examples', In Proc. of the Ann. Conf. on Computational Learing Theory(COLT), 1993 https://doi.org/10.1145/168304.168340
  14. P. Kilpelainen, H. Mannila, and E. Ukkonen, 'MDL learning of unions od simple pattern languages from positive examples', In Proc. of the European Conf. on Computational Learing Theroy(Eurocolt), 1995
  15. IBM, 'MPEG-7 Schema Page,' http://pmedia.i2.ibm.com:8000/mpeg7/schema, Arpil, 2002
  16. Jon Duckett, et al., 'Professional XML Schema,' Wrox, 2002
  17. XML for ASP.NET Developers, 'XSD Schema Generator,' http://www.xmlforasp.net/codeSection.aspx?csID=16, May, 2001
  18. RJT Netproductions, 'Simple Sample DTD/XML Generator,' http://rtiess.tripod.com/dtdxml.htm, Apr., 2002