Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2019.10a
- /
- Pages.70-72
- /
- 2019
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
An Implementation of Python Web Crawler Using Thread
쓰레드를 이용한 파이썬 웹 크롤러 구현
- Yang, Hee-Chan (Dept. of Computer Science, Namseoul University) ;
- Kim, Cheong Ghil (Dept. of Computer Science, Namseoul University)
- Published : 2019.10.30
Abstract
최근 ICT의 발전으로 인해 웹사이트 수가 폭발적으로 증가하고 있으며 인터넷상에는 여러 가지 다양하고 방대한 데이터들이 존재한다. 이러한 데이터를 효과적으로 검색하고 이용하기 위하여 웹 검색 기능은 주요한 역할을 담당한다. 본 논문에서는 웹 데이터를 자동으로 스크랩하여 파일로 저장하는 웹 크롤러를 구현하고 처리 속도 향상을 위하여 쓰레드 기능을 추가하였다. 웹 크롤러 구현을 위한 프로그래밍 언어는 파이썬을 사용하였으며 다양한 크기의 레퍼런스 사이트의 크롤링 속도 비교는 쓰레드 수를 변경함으로 측정하여 성능향상을 확인하였다.
Keywords