DOI QR코드

DOI QR Code

Weighting of XML Tag using User's Query

사용자 질의를 이용한 XML 태그의 가중치 결정

  • 우선미 (전북대학교 전북지역전자정보사업단) ;
  • 유춘식 (전북대학교 전산통계학과) ;
  • 김용성 (전북대학교 전자정보공학부)
  • Published : 2005.06.01

Abstract

XML is the standard that can manage systematically WWW documents and increase retrieval efficiency. Because XML documents have the information of contents and that of structure in single document, users can get more suitable retrieval result by retrieving the information of content as well as that of logical structure. In this paper, we will propose a method to calculate the weights of XML tags so that the information of XML tag is used to index decision. A proposed method creates term vector and weight vector for XML tags, and calculates weight of tag by reflecting user's retrieval behavior (user's query). And it decides the weights of index terms of XML document by reflecting the weights of tags. And we will perform an evaluation of proposed method by comparison with existing researches using weights of paragraphs.

보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

Keywords

References

  1. 공영중, 박진우, 서정연, '문장 중요도를 이용한 자동문서 범주화', 정보과학논문지 제29권 제6호, 2002
  2. 김영란, 'XML DTD의 효율적인 검색을 위한 구조 정보 및 인덱스 메카니즘', 컴퓨터정보학회 논문지 제8권 제2호, 2003
  3. 김종영, 김철수 '가중치를 가지는 웹문서 색인기법에 관한 연구', 한국정보처리학회, 제9권, 제2호, 2002
  4. 김홍남, 이기성, 조근식 '가중치가 부여된 규칙을 이용한 문서 분류', 한국정보과학회지, 제30권, 제2-1호, pp.154-156, 2003
  5. 박종관, 손충범, 강형일, 유재수, 이병엽, 'XML 문서의 효율적인 구조 검색을 위한 색인 모델', 정보처리학회논문지D, 제8-D권 제5호, 2001
  6. 양권묵, 박건일, 김유성, '한글 학술 논문의 일반구조를 이용한 자동 색인어 선정 시스템', 인하대학교 학위논문, 1998
  7. 우선미, 유춘식, 김용성, '용어 연관성 분석을 이용한 사용자 위주의 문서순위결정 기법', 한국정보과학회 논문지, 제28권, 제2호, pp.149-156, 2001
  8. 유춘식, 우선미, 유철중, 이종득, 권오봉, 김용성, '자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동 색인 시스템에 관한 연구', 정보처리논문지, 제5권 제6호, 1998
  9. 유춘식, '유사한 구조를 가지는 XML 문서들의 DTD 통합 알고리즘', 전북대학교 전산통계학과 박사학위논문, pp.1-108, 2005. 2
  10. 정영미, 정보검색론, 구미무역(주) 출판부, pp.1-354, 1993
  11. 정영미, 이재윤, '지식 분류의 자동화를 위한 클러스터링 모형연구', 정보관리학회지 제18권 제2호, 2001
  12. 조윤기, 조정길, 이병렬, 구연설, 'XML 문서에 포함된 구조 정보의 표현과 검색', 정보처리학회논문지D, 제8-D권 제4호, 2001
  13. Anthony Hunter, 'Logical Fusion rules for merging structured news reports,' Data & Knowledge Engineering, Vol.42, pp.23-56, 2002 https://doi.org/10.1016/S0169-023X(02)00026-5
  14. Anthony Hunter, 'Merging structured text using temporal knowledge,' Data & Knowledge Engineering, Vol.41, pp. 29-66, 2002 https://doi.org/10.1016/S0169-023X(02)00019-8
  15. Brian Lowe, Justin Zobel, Ron Sacks-Davis 'A Formal Model for Databases of Structured Text,' Proceedings of the Fouth International Conference on Database Systems for Advanced Applications(Dasfaa '95), pp.449-456, 1995
  16. Fabio Crestani, Jesus Vegas, Pablo de la Fuente, 'A graphical user interface for the retrieval of hierarchically structured documents,' Information rocessing and Management, Vol.40, pp.269-289, 2004 https://doi.org/10.1016/S0306-4573(02)00120-6
  17. S.H.Lin, MC.Chen, J.M.Ho, Y.M.Huang, 'ACIRD Intelligent Internet Organization and Retrieval', IEEE Transactions on Knowledge and Data Engineering, Vol.14, No.3, May/June 2002 https://doi.org/10.1109/TKDE.2002.1000345
  18. T. Dao, R. Sacks-Davis and J. A. Thom 'An indexing scheme for structured documents and its implementation,' In Proceedings of the 5th International conference on Database Systems for Advanced Applications, pp.125-134, Melbourne, Australia, April, 1997
  19. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler, and Fracnois Yergeau, 'XML 1.0(Third Edition),' W3C Recommendation, http://www.w3.org/TR/2004/REC-xml-20040204, Feb., 2004
  20. Toung Dao 'An Indexing Model for Structured Documents to Support Queries on Content, Structure and Attributes,' Proceeding of ADL'98, pp.88-98, 1998