User-based Document Summarization using Non-negative Matrix Factorization and Wikipedia

비음수행렬분해와 위키피디아를 이용한 사용자기반의 문서요약

  • Park, Sun (Institute Research of Information Science and Engineering, Mokpo National University) ;
  • Jeong, Min-A (Department of Computer Engineering, Mokpo National University) ;
  • Lee, Seong-Ro (Department of Information Electronic Engineering, Mokpo National University)
  • 박선 (목포대학교 정보산업연구소) ;
  • 정민아 (목포대학교 컴퓨터공학과) ;
  • 이성로 (목포대학교 정보전자공학과)
  • Received : 2011.12.06
  • Accepted : 2011.12.27
  • Published : 2012.03.25

Abstract

In this paper, we proposes a new document summarization method using the expanded query by wikipedia and the semantic feature representing inherent structure of document set. The proposed method can expand the query from user's initial query using the relevance feedback based on wikipedia in order to reflect the user require. It can well represent the inherent structure of documents using the semantic feature by the non-negative matrix factorization (NMF). In addition, it can reduce the semantic gap between the user require and the result of document summarization to extract the meaningful sentences using the expanded query and semantic features. The experimental results demonstrate that the proposed method achieves better performance than the other methods to summary document.

본 논문은 위키피디아의 외부지식을 이용하여 사용자의 질의를 확장하고, 확장된 질의와 문서집합의 내부구조를 표현하는 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 사용자의 초기 질의에 위키피디아 기반의 연관 피드백을 적용하여 사용자가 요구하는 요약문장을 추출할 수 있도록 질의를 확장하며, 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 확장된 질의와 의미특징을 이용하여 의미 있는 문장을 추출함으로써 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 기존방법에 비해서 문서요약에 대해 더 좋은 성능을 보인다.

Keywords

References

  1. I. Mani, M. T. Maybury, "dvances in Automatic Text," The MIT Press, 1999.
  2. A., Diaz, P., Gservas, "User-model based personalized summarization", Information Processing and Management, 43, pp.1715-1734, 2007. https://doi.org/10.1016/j.ipm.2007.01.009
  3. V. Nastase, "Topic-Driven Multi-Document Summarization with Encyclopedic Knowledge and Spreading Activation", In proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp.763-772, 2008.
  4. 박선, 김경준, 이진석, 이성로, "군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법", 한국전자공학회 논문지, 제48권 제5호, 2011.
  5. 박선, 김철원, 임향석, "의미특징과 워드넷을 이용한 문서요약", 2010 한국통신학회춘계학술대회, 2010.
  6. S. Park, D. U. An, "Automatic Query-based Personalized Summarization that uses Pseudo Relevance Feedback with NMF", In proceeding of ACM ICUIMC2010, 2010.
  7. S. Park, "User-focused Automatic Document Summarization using Non-negative Matrix Factorization and Pseudo Relevance Feedback", In proceeding of ICCEA2009, 2009.
  8. K. Ramanathan, Y. Sankarasubramaniam, N. Mathur, A. Gupta, "Document Summarization using Wikipedia", In proceedings of the First International Conference on HCI, 2009.
  9. S. Ye, T. S. Chua, J. Lu, "Summarization Definition from Wikipedia", In proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pp. 199-207, 2009.
  10. M., Sanderson, "Accurate user directed summarization from existing tools", In proceeding of the international conference on information and knowledge management, pp.45-51, 1998.
  11. A., Tombros, M., Sanderson, "Advantages of Query Biased summaries in Information Retrieval", In proceeding of ACM SIGIR, pp.2-10, 1998.
  12. R., Varadarajan, V., Hristidis, "A System for Query Specific Document Summarization", In proceeding of the CIKM, pp.622-631, 2006.
  13. Han, K. S., Bea, D. H., Rim, H. C., "Automatic Text Summarization Based on Relevance Feedback with Query Splitting", In proceedings of the 5th International Workshop on Information Retrieval with Asian Language, pp.201-202, 2000.
  14. D. D. Lee, H. S. Seung, "Learning the parts of objects by non-negative matrix factorization," Nature, vol. 401, pp.788-791, 1999. https://doi.org/10.1038/44565
  15. D. D. Lee, H. S. Seung, "Algorithms for non-negative matrix factorization," In Advances in Neural Information Processing Systems, vol. 13, pp.556-562, 2001.
  16. 위키피디아, "www.wikipedia.com", 2011.
  17. Miller G. "WordNet: A lexical databased for english", CACM, 38(11), pp.39-41, 1995. https://doi.org/10.1145/219717.219748
  18. B. Y. Ricardo, R. N. Berthier, "Moden Information Retrieval," ACM Press, 1999.
  19. S. Chakrabarti, "mining the web: Discovering Knowledge from Hypertext Data," Morgan Kaufmann Publishers, 2003.
  20. S. Gong, Y. Qu, S. Tian, "Summarization using Wikipedia", In proceedings of Text Analysis Conference 2010, 2010.
  21. 한경한, 남경완, "한국어 정보 처리 입문 : 컴퓨터가 우리말을 이해하려면", 커뮤니케이션북스, 2007.
  22. W. B. Frankes, B. Y. Ricardo, "Information Retrieval : Data Structure & Algorithms", Prentice-Hall, 1992.
  23. 박선, "의미 특징 행렬과 의미 가변행렬을 이용한 질의 기반의 문서 요약", 한국항행학회 논문지, 제12권, 제4호, 2008.
  24. 박선, 이주홍, "비음수 행렬 분해와 K-means를 이용한 주제기반의 다중문서요약", 한국정보과학회 논문지, 제35권, 제4호, 2008.
  25. 김철원, 박선, "의미특징과 워드넷 기반의 의사 연관 피드백을 사용한 질의 기반의 문서요약", 한국해양정보통신학회 논문지, 제15권 제7호, 2011.