DOI QR코드

DOI QR Code

Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization

비음수 행렬 분해와 군집의 응집도를 이용한 문서군집

  • 김철원 (호남대학교 컴퓨터공학과) ;
  • 박선 (전북대학교 BK21-전북 전자정보고급인력양성사업단)
  • Published : 2009.12.31

Abstract

Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the clustering method based NMF(non-negative matrix factorization) and refinement of documents in cluster by using coherence of cluster. The proposed method can improve the quality of document clustering because the re-assigned documents in cluster by using coherence of cluster based similarity between documents, the semantic feature matrix and the semantic variable matrix, which is used in document clustering, can represent an inherent structure of document set more well. The experimental results demonstrate appling the proposed method to document clustering methods achieves better performance than documents clustering methods.

문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. 제안된 방법은 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있고, 문장들 간의 유사도에 기반 한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여서 재 할당함으로써 군집의 효율을 향상시킬 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

Keywords

References

  1. S. Chakrabarti, 'mining the web: Discovering Knowledge from Hypertext Data', Morgan Kaufmann Publishers, 2003
  2. Y. Huang, T. M. Mitchell, 'Text Clustering with Extended User Feedback', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 413-420, 2006
  3. X. Ji, W. Xu, S. Zhu, 'Document Clustering with Prior Knowledge', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 405-412, 2006
  4. D. D. Lee, H. S. Seung, 'Learning the parts of objects by non-negative matrix factorization', Nature, vol.401, 788-791, 1999 https://doi.org/10.1038/44565
  5. D. D. Lee, H. S. Seung, 'Algorithms for non-negative matrix factorization', In Advances in Neural Information Processing Systems, vol.13, 556-562, 2001
  6. W. Xu, X. Liu, Y. Gon, 'Document Clustering Based On Non-negative Matrix Factorization', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 267-274, 2003
  7. 주길홍, 이원석, '효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서클러스터링', 컴퓨터교육학회 논문지 11권 3호, 2008.5
  8. B. Y. Ricardo, R. N. Berthier, 'Moden Information Retrieval', ACMPress, 1999
  9. S. Basu, A.Banerjee, R. Mooney, 'Semi-supervised Clustering by Seeding', Proceeding of International Conference on Machine Learning (ICML), 19-26, 2002
  10. H. J. Zeng, Q. C. He, Z. Chen, W. Y. Ma, J. Ma, 'Learning to Cluster Web Search Results', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 210-217, 2004
  11. The 20 newsgroups data set. http://people.csail.mit. edu/jrennie/20Newsgroups/, 2007
  12. J. Han, M. Kamber, 'Second Edition Data Mining Concepts and Techniques', Morgan Kaufman, 2006