DOI QR코드

DOI QR Code

A Method for Spam Message Filtering Based on Lifelong Machine Learning

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법

  • Received : 2019.12.06
  • Accepted : 2019.12.06
  • Published : 2019.12.31

Abstract

With the rapid growth of the Internet, millions of indiscriminate advertising SMS are sent every day because of the convenience of sending and receiving data. Although we still use methods to block spam words manually, we have been actively researching how to filter spam in a various ways as machine learning emerged. However, spam words and patterns are constantly changing to avoid being filtered, so existing machine learning mechanisms cannot detect or adapt to new words and patterns. Recently, the concept of Lifelong Learning emerged to overcome these limitations, using existing knowledge to keep learning new knowledge continuously. In this paper, we propose a method of spam filtering system using ensemble techniques of naive bayesian which is most commonly used in document classification and LLML(Lifelong Machine Learning). We validate the performance of lifelong learning by applying the model ELLA and the Naive Bayes most commonly used in existing spam filters.

인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

Keywords

References

  1. JM Gomez Hidalgo, GC Bringas, EP Sanz, and FC Garcia, "Content based SMS spam filtering," Proceedings of the 2006 ACM symposium on Document engineering, pp.107-114, 2006. DOI: 10.1145/1166160.1166191
  2. Andrew McCallum and Kamal Nigam, "A Comparison of Event Models for Naive Bayes Text Classification," AAAI-98 on learning for text categorization, 1998.
  3. Le Zhang, Jingbo Zhu, and Tianshun Yao, "An Evaluation of statistical spam filtering techniques," ACM Transaction on Asian Language Information Processing, pp.243-269, 2006. DOI: 10.1145/1039621.1039625
  4. Vangelis Metsis, "Spam Filtering with Naive Bayes-Which Naive Bayes?," CEAS, 2006.
  5. Zhiyuan Chen and Bing Liu, "Lifelong Machine Learning, Second Edition," Morgan & Claypool publishers, 2018.
  6. Zhiyuan Chen, Nianzu Ma, and Bing Liu, "Lifelong learning for sentiment classification," ACL, pp 750-756, 2015.
  7. Ion Androutsopoulos and John Koutsias, "An Evaluation of Naive Bayesian Anti-Spam Filtering," ECML, pp.9-17, 2000.
  8. Abhishek Kumar and Hal Daume III, "Learning Task Grouping and Overlap in Multi-Task Learning," arXiv:1206.6417, 2012.
  9. P Ruvolo and E Eaton, "ELLA: An efficient lifelong learning algorithm," ICML, 2013.
  10. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, "Efficient Estimation of word Representations in Vector Space," arXiv:1301.3781 v3, 2013.
  11. Quoc Le, Toman Milokov, "Distributed Representations of Sentences and Documents," Proc. of the 31st ICML, 2014.