A Bloom filter-based Sentiment-aware Web Crawling Algorithm

블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘

  • Na, Chul-Won (Department of Software Convergence Engineering, Kunsan National University) ;
  • On, Byung-Won (Department of Software Convergence Engineering, Kunsan National University)
  • 나철원 (군산대학교 소프트웨어융합공학과) ;
  • 온병원 (군산대학교 소프트웨어융합공학과)
  • Published : 2018.10.12

Abstract

최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

Acknowledgement

Supported by : 한국연구재단