DOI QR코드

DOI QR Code

Design of Web Robot Engine Using Distributed Collection Model Processing

분산수집 모델을 이용한 웹 로봇의 설계 및 구현

  • Published : 2010.01.30

Abstract

As internet becomes widespread, a lot of information is opened to public and users of Internet can access effectively information using web searching service. To construct web searching service, the web searching method for collecting of information is needed to obtain web page view. As a number of web page view increases, it is necessary to collect information of high quality information to be searched, therefore, a variety of web engine for searching mechanism is developed. Method of link extraction with javascript in dynamic web page and design of web searching robot are presented m this paper. To evaluate performance analyzes, we fixed one searching model with the proposed method. The searching time takes 2 minute 67 sec for 299 web pages and 12.33 sec for 10 searching model.

인터넷의 이용이 활발해짐에 따라 수많은 정보들이 웹을 통하여 공개되고 있으며, 이용자는 웹 검색 서비스를 이용하여 이러한 정보들에 효과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가되고 있으며, 그에 따른 많은 웹 수집 로봇이 탄생되고 있다. 본 논문에서는 효과적인 웹 수집 로봇의 설계와 동적인 웹페이지에서 사용하는 자바스크립트의 링크추출 방안을 제안하였다. 본 논문에서는 성능 분석을 위하여 제안된 모델을 사용하여 수집 모델을 1개로 설정해 놓고 299개의 웹 페이지를 점검 하였을 경우, 2분 12.67초가 소요되었고, 수집 모델을 10개로 생성하여 점검 하였을 경우 12.33초가 소요됨을 알 수 있었다.

Keywords

References

  1. 김광현, 이준호, "웹 로봇의 성능 평가를 위한 방법론", 정보처리학회, 제11D권, 제3호, 2006, pp.563-570
  2. Kwang Hyun Kim, "A Methodology for Performance Evaluation of Web Robot, Korea Information Processing Society Vol. 11, No. 3, June pp. 563-565, 2004
  3. Beitzel et al., 2007 Beitzel, S. M., Jensen, E. C., Lewis, D. D., Chowdhury, A., & Frieder, O. (2007). Automatic classification of Web queries using very large unlabeled query logs. ACM Transactions on Information Systems, 25(2), Article No. 9.
  4. Ozmutlu et al., 2002 H.C. Ozmutlu, A. Spink. and S. Ozmutlu, Analysis of large data logs: An application of Poisson sampling on excite Web queries, Information Processing & Management 38(4) (2002), pp. 473 - 490. https://doi.org/10.1016/S0306-4573(01)00043-7