DOI QR코드

DOI QR Code

A Web-document Recommending System using the Korean Thesaurus

한국어 시소러스를 이용한 웹 문서 추천 에이전트

  • Published : 2009.01.30

Abstract

We build the web document recommending agent system which offers a certain amount of web documents to each user by monitoring and learning the user's action of web browsing. We also propose a method of query expansion using the Korean thesaurus. The queries to search for new web documents generate a candidate set using the Korean thesaurus. We extract the words which are mostly correlated with the queries, among the words in the candidate set, by using TF-IDF and mutual information. Then, we expand the query. If we adopt the system of query expansion, we can recommend a lot of web documents which have potential interests to users. We thus conclude that the system of query expansion is more effective than a base system of recommending web-documents to users.

우리는 사용자의 행동을 관찰하고 학습하여 사용자 대신에 문서를 수집 분석함으로써 사용자에게 필요한 정보만을 추출하여 제공하는 웹 문서 추천 에이전트 시스템을 개발한다. 또한 우리는 이 시스템에 한국어 시소러스를 이용한 질의어 확장 방법의 적용을 제안한다. 한국어 시소러스를 이용한 질의어 확장을 위해, 새로운 웹 문서를 검색하기 위해 생성된 질의어를 한국어 시소러스를 통하여 그 하의어들을 찾아 후보 집합을 생성해 주고, TF-IDF와 상호 정보량을 이용하여 후보 집합 안에 있는 단어 들 중에서 질의어와 가장 많은 관련 정보를 가지고 있는 단어를 추출함으로써 질의어를 확장해 주었다. 확장되지 않은 질의어만으로 웹 문서를 추천하게 되면 추천된 웹 문서의 수는 극히 제한적이지만, 질의어를 확장함으로써 보다 더 많은 유용한 웹 문서를 사용자에게 추천 및 제공 할 수 있다.

Keywords

References

  1. 윤윤경, 효과적인 웹 문서 추천을 위한 동적 사용자 프로파일 생성 기법, 서강대학교 석사 학위 논문, 1999
  2. George Miller. Special Issue, "WordNet : An on-line lexical database", International Journal of Lexicography, 3(4), 1990
  3. Church K. W. and Hanks P., "Word Association Norms, Mutual Information and Lexicography", Computational Linguistics, 16(1), pp. 22-29, 1990
  4. Chengfeng han, Hideo Fujii, W. Bruce Croft, "Automatic Query Expansion for Japanese Text Retrieval", UMass Technical Report, 1994
  5. Ellen M. Voorhees, "Query Expansion using Lexical-Semantic Relations", SIGIR '94, 1994
  6. Lewis, D., D., Gale, W., A., "A Sequential Algorithm for Training Text Classifiers", Proceeding of the 7th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dubline, 1994
  7. Susan Gauch and Jianying Wang, "A Corpus Analysis Approach for Automatic Query Expansion", CIKM '97, 1997
  8. Joachims, T., "A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization", Proceedings of the 14th International Conference on Machine Learning ICML97, 1997
  9. Liren Chen and Katia Sycara, "WebMate : A Personal Agent for Browsing and Searching", 2nd International Conference on Autonomous Agents and Multi Agent System, 1998
  10. Davide Trucato, Fred Popowich, Janine Toole, Dan Fass, Devlan Nicholson, Gordon Tisher, "Adapting a synonym database to specific domains", ACL 2000, 2000
  11. www.gnu.org/software/wget/wget.html