Document Clustering Methods using Hierarchy of Document Contents

문서 내용의 계층화를 이용한 문서 비교 방법

  • 황명권 (조선대학교 컴퓨터공학부) ;
  • 배용근 (조선대학교 컴퓨터공학부) ;
  • 김판구 (조선대학교 컴퓨터공학부)
  • Published : 2006.12.30

Abstract

The current web is accumulating abundant information. In particular, text based documents are a type used very easily and frequently by human. So, numerous researches are progressed to retrieve the text documents using many methods, such as probability, statistics, vector similarity, Bayesian, and so on. These researches however, could not consider both subject and semantic of documents. So, to overcome the previous problems, we propose the document similarity method for semantic retrieval of document users want. This is the core method of document clustering. This method firstly, expresses a hierarchy semantically of document content ut gives the important hierarchy domain of document to weight. With this, we could measure the similarity between documents using both the domain weight and concepts coincidence in the domain hierarchies.

웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

Keywords

References

  1. D.D.Lewis, 'Naive(Bayes) at forty: The Independence Assumption in Information Retrieval,' In European Conference on Machine Learning, 1998
  2. J. McMahon and F. Smith, 'Improving statistical language model performance with automatically generated word hierarchies,' Computational Linguistics, Vol.22, No.2, 1995
  3. T. Joachirns, 'A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization,' ICML-97, 1997
  4. 한광록, 선복근, 한상태, 임기욱, '인터넷 문서 자동분류 시스템 개발에 관한 연구', 제9회 한국정보처리학회 논문집, 제7권 제9호, pp.2867-2875, 2000
  5. A. McCallum and K. Nigram, 'A Comparsion of Event Models for Naive Bayes Text Classification,' AAAI-98 Workshop on Learning for Text Categorization, 1998
  6. 고수정, 이정현, 'Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류', 정보처리학회 논문지 B, Vol.01, No.01, p.001-012, 2001년 6월
  7. Satanjeev Banerjee, Ted Pedersen, 'An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet', Computational Linguistics and Intelligent Text Processing: Third International Conference, p.136-147, Vol.2276, February 17-23,2002
  8. Hyunjang Kong, M.G. Hwang, P.K. Kim, 'A New Methodology for Merging the Heterogeneous Domain Ontologies based on the WordNet', International Conference on Next Generation Web Services Practices, 2005.08
  9. http://wordnet.princeton.edu/
  10. S. Banerjee, T. Pedersen, 'An adapted Lesk algorithm for word sense disambiguation using WordNet,' In Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, pp. 136 - 145,2002 https://doi.org/10.1007/3-540-45715-1_11
  11. Haruechaiyasak, C. Mei-Ling, Shyu Shu-Ching Chen, 'Web Document Classification Based on Fuzzy Association', Computer Software and Applications Conference, 2002. COMPSAC 2002. Proceedings. 26th Annual International, p.487- 492
  12. 'The Classic Vector Space Model', http://www.miislita. comfterm-vector/term-vector-3.html
  13. D.L. Lee, H. Chuang, K. Seamons., 'Document Ranking and the Vector-Space Model', IEEE Software, p.67-75, 1997
  14. L.A. Zadeh, 'Fuzzy Sets', in D.Dubois, H.Prade, and R.R.Yager, editors, Readings in Fuzzy Sets for Intelligent Systems, Morgan Kaufmann Publishers, 1993