DOI QR코드

DOI QR Code

A Methodology for Performance Evaluation of Web Robots

웹 로봇의 성능 평가를 위한 방법론

  • 김광현 (숭실대학교 대학원 컴퓨터학과) ;
  • 이준호 (숭실대학교 컴퓨터학부)
  • Published : 2004.06.01

Abstract

As the use of the Internet becomes more popular, a huge amount of information is published on the Web, and users can access the information effectively with Web search services. Since Web search services retrieve relevant documents from those collected by Web robots we need to improve the crawling quality of Web robots. In this paper, we suggest evaluation criteria for Web robots such as efficiency, continuity, freshness, coverage, silence, uniqueness and safety, and present various functions to improve the performance of Web robots. We also investigate the functions implemented in the conventional Web robots of NAVER, Google, AltaVista etc. It is expected that this study could contribute the development of more effective Web robots.

인터넷의 이용이 활발해짐에 따라 수많은 정보들이 점을 통하여 공개되고 있으며, 이용자는 점 검색 서비스를 이용하여 이러한 정보들에 과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가하고 있다. 본 연구에서는 웹 로봇들을 체계적으로 평가하기 위한 기준으로서 효율성, 지속성, 신선성, 포괄성, 정숙성, 유일성, 안전성을 제시하고, 이러한 평가 기준의 향상에 도움이 되는 기능들을 기술하였다. 또한, 본 연구에서는 네이버, 구글, 알타비스타 등에서 사용되고 있는 기존의 점 로봇들에 구현된 기능들을 조사하였다. 본 연구의 결과는 보다 효과적인 램 로봇의 개발에 기여할 것으로 기대된다.

Keywords

References

  1. M. Gray, 'Internet Growth and Statistics: Credits and Background,' http://www.mit.edu/people/mkgray/net/background.html
  2. M. Koster, 'A Method for Web Rotots Control,' Network Working Group, Internet Draft, Dec. 1996, http://www.robotstxt.org/wc/norobots-rfc.html
  3. A. Heydon and M. Najork, 'Mercator : A Scalable, : Extensible Web Crawler,' InRecordings of the 8th World Wide Web Conference, Toronto, Canada, 1999
  4. M. Najork and A. Heydon, 'High-Performance Web Crawling,' SRC Research Report 173, Compaq Systems Research Center, 2001
  5. S. Brin and L. Page, 'The Anatomy of a Large-Scale Hypertextual Web Search Engine,' In Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia, 1998
  6. J. Cho and H. Garcia-Molina, 'Parallel Crawler,' In Proceedings of the 11th Interational World Wide Web Conference, Hawaii, USA, 2002
  7. J. Cho, N. Shivakumar and H. Garcia-Molina, 'Finding Replicated Web Collections,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, Dallas, Texas, 2000 https://doi.org/10.1145/342009.335429
  8. S. Raghavan and H. Garcia-Molina, 'Crawling the Hidden Web,' Proceedings of the 27th International Conference on Very Large Databases, Rome, Italy, 2001
  9. J. Cho and H. Garcia-Molina, 'The Evolution of the Web and Implications for an Incremental Crawler,' In Proceedings of the 26th International Conference on Very Large Databases, Cairo, Egypt, 2000
  10. V. Shkapenyukn and T. Suel, 'Design and Implementation of a High-performance Distributed Web Crawler,' In Proceedings of the 18th International Conference on Data Engineering, San Jose, California, 2002