Analysis of Execution Behavior for Multprocess-based Web Robots

다중 프로세스 기반 웹 로봇의 수행동작 분석

  • 김희철 (대구대학교 정보통신공학과) ;
  • 이용두 (대구대학교 정보통신공학과)
  • Published : 2001.06.01

Abstract

Web robot is an important Internet software technology used in a variety of Internet application software which includes search engines. As Internet continues to grow, implementations of high performance Web robots are urgently demanded. For this, researches specially geared toward performance scalability of Web robots are required. Hoover, because researches are focused mostly on addressing issues related to commercial implementations, scientific researches and studies are not still made on the performance scalability. In this research, Ive choose a Web robot model implemented by fork-join based. multiprocesses. With respect to the model, we evaluate the effect on the collection efficiency that the timeout values set to requests from Web robots to Web servers have. Also, we analysed the behaviors of Web robots by comparing the execution time between the URL extraction and the uniqueness checking for the extracted URLs. as well as by comparing between the computation time and the network time. Based on the analysis result, we suggest the direction for the design of high performance Web robots.

웹 로봇은 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹 로봇의 구현이 시급히 요구되고 있다. 이를 위해서는 웹 로봇에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 하지만 기존의 웹 로봇에 대한 연구개발은 주로 구현에 초점을 두고 수행되어 왔으며 따라서 성능확장성에 대한 체계적인 연구 결과는 발표되고 있지 않다. 본 연구에서는 이러한 성능확장성에 관한 선행연구로서 기존 웹 로봇 모델의 수행동작(Execution Behavior)을 성능 측면에서 이해하고자 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 본 연구에서는 Fork-join을 기반으로 하는 다중프로세스 기반의 웹 로봇 모델에서 웹 로봇이 웹 서버에게로 전송하는 접속요청, 문서헤드요청, 문서본문요청 시에 설정하는 타임아웃(Timeout) 값이 성능에 미치는 영향을 분석하였다. 또한 전체 컴퓨팅 소요시간에서 URL추출 및 유일성 검사 등이 점유하는 비율을 산출하여 웹 로봇의 동작을 분석하였다. 이러한 분석 결과를 기반으로 하여 향후 웹 로봇의 성능향상을 위한 설계 방향을 제시한다.

Keywords