DOI QR코드

DOI QR Code

An XML Tag Indexing Method Using on Lexical Similarity

XML 태그를 분류에 따른 가중치 결정

  • 정혜진 (전북대학교 컴퓨터정보학과) ;
  • 김용성 (전북대학교 전자정보공학부)
  • Published : 2009.02.28

Abstract

For more effective index extraction and index weight determination, studies of extracting indices are carried out by using document content as well as structure. However, most of studies are concentrating in calculating the importance of context rather than that of XML tag. These conventional studies determine its importance from the aspect of common sense rather than verifying that through an objective experiment. This paper, for the automatic indexing by using the tag information of XML document that has taken its place as the standard for web document management, classifies major tags of constructing a paper according to its importance and calculates the term weight extracted from the tag of low weight. By using the weight obtained, this paper proposes a method of calculating the final weight while updating the term weight extracted from the tag of high weight. In order to determine more objective weight, this paper tests the tag that user considers as important and reflects it in calculating the weight by classifying its importance according to the result. Then by comparing with the search performance while using the index weight calculated by applying a method of determining existing tag importance, it verifies effectiveness of the index weight calculated by applying the method proposed in this paper.

보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

Keywords

References

  1. Brian Lowe, Justin Zobel and Ron Sacks-Davis “A Formal Model for Databases of Structured Text,” Proceedings of the Fouth International Conference on Database Systems for Advanced Applications(Dasfaa '95), pp.449-456, 1995
  2. 우선미, “사용자 질의를 이용한 XML 태그의 가중치 결정”, 정보처리논문지 D(정보처리 응용), 2005 https://doi.org/10.3745/KIPSTD.2005.12D.3.439
  3. 정혜진, “사용자 질의를 이용한 XML 태그이 중요도 결정 기법”, 전북대학교석사학윈논문, 2004
  4. 김흥남, 이기성, 조근식 “가중치가 부여된 규칙을 이용한 문서분류”, 한국정보과학회지, 제30권, 제2-1호, pp.0154-0156, 2003
  5. 김종영, 김철수 “가중치를 가지는 웹문서 색인기법에 관한 연구”, 한국정보처리학회, 제09권, 제02호, pp.0000-0000, 2002
  6. S.H.Lin, M.C.Chen, J.M.Ho and Y.M.Huang. “ACIRD : Intelligent Internet Organization and Retrieval,” IEEE Transactions on Knowledge and Data Engineering, Vol.14, No.3, May/June, 2002 https://doi.org/10.1109/TKDE.2002.1000345
  7. 우선미, 유춘식, 김용성, “용어 연관성 분석을 이용한 사용자 위주의 문서순위결정 기법”, 한국정보과학회 논문지, 제28권, 제2호, pp.149-156, 2001
  8. 유춘식, 우선미, 유철중, 이종득, 권오봉, 김용성, “자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동 색인 시스템에 관한 연구”, 한국정보처리학회 논문지, 제5권 제6호, 1998

Cited by

  1. Development of XML based HACCP Diet Automatic Classification System vol.19, pp.1, 2016, https://doi.org/10.9717/kmms.2016.19.1.086