DOI QR코드

DOI QR Code

An Implementation of Python Web Crawler Using Thread

쓰레드를 이용한 파이썬 웹 크롤러 구현

  • 양희찬 (남서울대학교 컴퓨터소프트웨어학과) ;
  • 김정길 (남서울대학교 컴퓨터소프트웨어학과)
  • Published : 2019.10.30

Abstract

최근 ICT의 발전으로 인해 웹사이트 수가 폭발적으로 증가하고 있으며 인터넷상에는 여러 가지 다양하고 방대한 데이터들이 존재한다. 이러한 데이터를 효과적으로 검색하고 이용하기 위하여 웹 검색 기능은 주요한 역할을 담당한다. 본 논문에서는 웹 데이터를 자동으로 스크랩하여 파일로 저장하는 웹 크롤러를 구현하고 처리 속도 향상을 위하여 쓰레드 기능을 추가하였다. 웹 크롤러 구현을 위한 프로그래밍 언어는 파이썬을 사용하였으며 다양한 크기의 레퍼런스 사이트의 크롤링 속도 비교는 쓰레드 수를 변경함으로 측정하여 성능향상을 확인하였다.

Keywords