DOI QR코드

DOI QR Code

Semi-Automatic Ontology Generation about XML Documents using Data Mining Method

데이터 마이닝 기법을 이용한 XML 문서의 온톨로지 반자동 생성

  • 구미숙 (충북대학교 전자계산학과) ;
  • 황정희 (남서울대학교 컴퓨터학과) ;
  • 류근호 (충북대학교 전기전자 컴퓨터공학부) ;
  • 홍장의 (충북대학교 전기전자 컴퓨터공학부)
  • Published : 2006.06.01

Abstract

As recently XML is becoming the standard of exchanging web documents and public documentations, XML data are increasing in many areas. To retrieve the information about XML documents efficiently, the semantic web based on the ontology is appearing. The existing ontology has been constructed manually and it was time and cost consuming. Therefore in this paper, we propose the semi-automatic ontology generation technique using the data mining technique, the association rules. The proposed method solves what type and how many conceptual relationships and determines the ontology domain level for the automatic ontology generation, using the data mining algorithm. Appying the association rules to the XML documents, we intend to find out the conceptual relationships to construct the ontology, finding the frequent patterns of XML tags in the XML documents. Using the conceptual ontology domain level extracted from the data mining, we implemented the semantic web based on the ontology by XML Topic Maps (XTM) and the topic map engine, TM4J.

최근 웹 문서를 비롯한 공공 문서 등에 대한 문서 교환을 위해 XML 데이터를 이용한 표준화 작업이 진행 중이므로 XML 문서가 증가하고 있다. 이와 같은 XML 문서에 대한 정보 검색의 효율을 높이기 위해 의미적 요소를 추가한 온톨로지를 기반으로 하는 시맨틱 웹이 등장하였다. 그러나 기존의 수동적인 온톨로지 구축 방식은 비용과 시간이 많이 소모되는 단점이 있으므로 이 논문에서는 유사한 도메인의 XML문서 집합으로부터 데이터 마이닝 기법의 연관규칙 알고리즘을 이용하여 반자동으로 온톨로지를 구축하는 방법을 제안한다. 제안한 방법은 특정한 도메인에 대한 온톨로지를 구축하기 위해서 필요한 데이터의 형태 및 개념 레벨, 그리고 얼마나 많은 개념을 사용할 것인가 하는 도메인 범위의 자동 설정을 온톨로지 자동 생성을 위한 온톨로지 도메인 레벨을 결정하기 위해서 데이터 마이닝 알고리즘을 이용한다. XML 문서의 태그에 대해 연관규칙을 적용하여 빈발하게 발생하는 빈발 패턴을 찾아내고, 서로 관련 있는 개념의 쌍을 추출하여 온톨로지 자동 생성을 위한 도메인 범위를 설정한다. 온톨로지 구축은 온톨로지 언어중의 하나인 XML Topic Maps와 공개 소스인 토픽법 엔진인 TM4J를 이용하여 온톨로지 기반의 시맨틱 웹 엔진을 구현하였다.

Keywords

References

  1. T.R.Gruber, 'Toward principles for the design of ontologies used for knowledge sharing', Int. J.Human Computer Studies, Vol.43, pp.907-928, 1995 https://doi.org/10.1006/ijhc.1995.1081
  2. M.Ushold, M.Gruninger, 'Ontologies: principles, methods and applications', The Knowledge Engineering Review, Vol.11, No.2, pp.93-136, 1996 https://doi.org/10.1017/S0269888900007797
  3. S. Staab, H. P. Schnurr, R. Studer, Y. Sure, 'Knowledge processes and ontologies', IEEE Intelligent Systems, Special Issue on Knowledge Management, Vol.16 No.1, pp.26-34, 2001 https://doi.org/10.1109/5254.912382
  4. Steve Pepper, 'The TAO of Topic Maps', XML Conference & Exposition, 2000
  5. S. Pepper, B. Moore, 'XML Topic Maps(XTM) 1.0', TopicMaps.Org
  6. Koung-lung Lin, Yen-jen Oyang, 'Knowledge Management for a Buddhism Digital Archive with Topic Map', ICDAT 2002, pp.91-101, 2002
  7. D. Braga, A. Campi, S. Ceri, M. Klemettinen, P. Lanzi, 'Discovering interesting information in XML data with association rules', SAC, Proceedings of the 2003 ACM symposium on Applied computing table of contents, pp.450-454, 2003 https://doi.org/10.1145/952532.952621
  8. R. Agrawal, T. Imielinski, A. N. Swami, 'Mining association roles between set of items in large database', Proceedings of ACM SIGMOD Conference on Management of Data(SIGMOD '93), pp.207-216, 1993 https://doi.org/10.1145/170035.170072
  9. R. Agrawl, R. Srikant, 'Fast Algorithms for Mining Association Rules', Proceedings of the VLDB, pp.487-499, Santiago de Chile, Chile, September, 1994
  10. D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi, 'A Tool for Extracting XML Association Rules from XML Documents', in Proceedings of IEEE-ICTAI 2002, pp.57-64, Washington DC, USA, November, 2002 https://doi.org/10.1109/TAI.2002.1180788
  11. Q. Ding, K. Ricords, J. Lumpkin, 'Deriving General Association Rules from XML Data', DBLP:conf/snpd/2003 pp.348-352. 2003
  12. A. Termier, M-C. Rousset, M. Sebag, 'TreeFinder: a Fast Step towards XML Data Mining', In Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM 2002), pp.450-457, 2002 https://doi.org/10.1109/ICDM.2002.1183987
  13. A. Maedche, S. Staab, 'Discovering Conceptual Relations from Text', Technical Report 399, Institute AIFB, Karlsruhe University, 2000
  14. A. Maedche, S. Staab, 'Semi-Automatic Engineering of Ontologies from Text', Proceedings of the 12th International Conference on Software Engineering and Knowledge Engineering, 2000
  15. R. Srikant, R. Agrawal, 'Mining Generalized Association Rules', In Proc. of VLDB '95, pp.407-419, 1995
  16. http://www.cs.toronto.edu/tox/toxgene/index.html
  17. http://www.cogsci.princeton.edu/~wn/wn2.0
  18. http://www.ontopia.net
  19. http://www.hibernate.org
  20. Jacky W. W. Wan, G. Dobbie, 'Mining Association Rules from XML Data using XQuery', ACM International Conference Proceeding, Vol.54, 2004
  21. 이정원, 방건동, 박세형, 백두권 '온톨로지 기반 설계 문서 관리 시스템 설계 및 구현,' 한국정보 과학회, 제 28권, 1호, pp.79-81, 2001
  22. 김정민, 박철만, 정준원, 이한준, 정호영, 민경섭, 김형주, 'K-Box: 토픽맵 기반의 온톨로지 관리 시스템', 정보과학회 춘계학술대회, Vol.10, No.1, pp1-13, 2004
  23. 김정민, 박철만, 정준원, 이한준, 정호영, 민경섭, 김형주, '온톨로지 기반의 지식맵 서비스 시스템의 설계 및 구현', 한국정보과학회 학술발표논문집, 제30권 제1호(A) pp.527-529, 2003
  24. 정호영, 김정민. 정준원, 김형주, 'XTM 기반의 지식맵', 데이터베이스연구회 학회지 Vol.19, No.01, pp.0038-0047, 2003
  25. 오장근, '유로워드넷 기반의 어휘 데이터베이스 활용을 위한 한국어-독일어 ILI 대응 방법론 연구', 한국독일어문학회 추계 학술대회, 2002
  26. 박명제, 민준기, 윤정희, 안재용, 정진완, '관계 형 데이터베이스와 XQuery를 이용한 XML 문서의 저장 및 검색 시스템', SIGDB-KISS Vol.18, No.02, 2002
  27. 장형화, 홍의경, '관계 데이터베이스 시스템 기반의 XQuery 질의 처리기 설계', 정보과학회 추계 학술대회 Vol.30, No.2-2, pp.0106-0108, 2003
  28. 최규원, 정채영, 김영옥, 김영균, 강현석, 배종민, '관계형 데이터베이스에서 XML 뷰 기반의 질의 처리 모델', 한국정보처리학회 논문지 Vol.10, No.02, pp.0221-0232, 2003 https://doi.org/10.3745/KIPSTD.2003.10D.2.221