DOI QR코드

DOI QR Code

A Design and Implementation of Web Robot by Using Genre-based Categorization and Subject-based Categorization

장르기반 분류와 주제기반 분류를 이용한 웹 로봇의 설계 및 구현

  • 이용배 (전주교육대학교 컴퓨터교육과)
  • Published : 2005.08.01

Abstract

It still has some restrictions to collect a specialized information with only the function of existing web robot which collect an enormous of data by circulating through the internet. Therefore, in this paper the functions of the current web robot and its application areas are analyzed and the limitations of collecting a specialized information are found out. Also we define what functions are necessary for a web robot in order to collect a specialized information. Then the designed structure is described. There are two critical functions which are applied to web robot. One is a genre-based categorization that classifies the text by the type, and the other is a content-based categorization by the subject. Most of all, genre-based categorization is used as fundamental feature which enables web robot to collect the aimed documents efficiently.

특수 전문화된 정보를 자동으로 수집하기 위해서는 인터넷 상을 순회하면서 대규모 자료를 모아오는 현재의 웹 로봇의 기능만으로는 그 역할을 수행하기에 부족함이 있다 따라서 본 논문에서는 현재의 웹 로봇의 기능과 활용도를 분석하여 보고 전문정보를 수집하는데 있어서 한계점을 알아보았다 또한 특수화된 분야의 전문정보를 수집하기 위하여 웹 로봇인 갖추어야 할 기능들을 도출해 내고 이를 설계한 내용을 기술하였다. 웹 로봇에 접목된 주요기능은 문서를 유형기반으로 분류할 수 있는 장르기반 분류와 주제기반으로 분류하는 내용기반 분류이다. 특히 장르기반 분류는 웹 로봇이 목적 문서를 효과적으로 수집할 수 있도록 하는 주요 기능으로 작용하였다.

Keywords

References

  1. 이근배 외, '에이전트 기반 정보검색' 정보과학회지, 제16권 제8호, 1998
  2. 마이크로소프트, 웹 로봇과 정보 추적자, 에이전트 기술/정보 찾아 3만리, 로봇 에이전트, 월간 마이크로소프트 10월, 1996
  3. 남기범, 이건명, '전자상거래 에이전트' 정보과학회지, 제18권 제5호, 2000
  4. 한국인터넷정보센터, URN 체계활용을 위한 메타데이터 개발, 기술보고서, 2002
  5. 염기종, 권영식, 'Suffix Tree를 이용한 웹문서 클러스터의 제목 생성 방법 성능 비교' 한국데이타마이닝학회 2002 추계학술대회 논문집,2002
  6. Tim Bemers-Lee, James Hendler, Ora Lassila, 'The Semantic Web', Scientific American, 5, 2001
  7. W3C, Resource Description Framework (RDF) http://www.w3.org/RDF/, 2003
  8. Andrew Dillon, Barbara Gushrowski, 'Genre and the Web: Is the Personal Home Page the First Uniquely Digital Genre?', JASIS, 51(2), 2000 https://doi.org/10.1002/(SICI)1097-4571(2000)51:2<202::AID-ASI11>3.0.CO;2-R
  9. Jussi Karlgren, Douglass Cutting, 'Recognizing Text Genres with Simple Metrics Using Discriminant Analysis', Proc. of COLING94, Kyoto, 1994 https://doi.org/10.3115/991250.991324
  10. Yong-Bae Lee, Sung Hyon Myaeng, 'Automatic Identification of Text Genres and Their Roles in Subject-Based Categorization', Proceedings of HlCSS-37, Jan., Hawaii, 2004 https://doi.org/10.1109/HICSS.2004.1265269
  11. Hyo-Jung Oh, Sung Hyon Myaeng, Mann-Ho Lee, 'A Practical Hypertext Categorization Method using Links and Incrementally Available ClassInformation', Proc. of the 23rd ACM SIGIR Conference, Athenes, Greece, 2000
  12. David Lewis, Marc Ringuette, 'A Comparison of Two Learning Algorithm for Text Categorization', Proc. of the 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994
  13. Mehran Sahami, 'Learning Limited Dependence Bayesian Classifiers', Proc. of the 2nd International Conference on KDD'96, 1996
  14. Yiming Yang, Xin Liu, 'A Re-examination of Text Categorization Methods', Proc. of the 22nd ACM SIGIR'99, 1999 https://doi.org/10.1145/312624.312647
  15. Andrew McCallum, Kamal Nigram, 'A Comparison of Event Models for Nave Bayes Text Classification', AAAI'98 Workshop on Learning for Text Categorization, 1998
  16. Yiming Yang, Jan Peterson, 'A comparative study on feature selection in text categorization', Proc. of 14th Int. Conf. On Machine Learning, 1997
  17. Eberhart, 'Survey of RDF data on the web', Proc. of the 6th World Multiconference on Systemics, Cybernetics and Informatics, 2002
  18. Amazon, http://www.amazon.com
  19. BargainFinder, http://bf.cstar.ac.com/bf
  20. BookFinder.com, http://www.bookfinder.com
  21. Checkbot, http://degraaff.org/checkbot
  22. eBookExpress, http://www.ebookexpress.com
  23. Mattew Gray, mkgray@mit.edu, http://www.mit.edu:8001/people/mkgray
  24. MOMSpider, http://ftp.ics.uci.edu/pub/websoft
  25. Mysimon, http://www.mysimon.com
  26. Synaptic, http://www.synap.com
  27. WatchPrice.com, http://www.watchprice.com
  28. Webcrawler, http://webcrawler.com
  29. NSTA, NSA WebWatcher Institute, http://webwatchers.nsta.org