DOI QR코드

DOI QR Code

A Swearword Filter System for Online Game Chatting

온라인게임 채팅에서의 비속어 차단시스템

  • Received : 2011.05.30
  • Accepted : 2011.06.16
  • Published : 2011.07.31

Abstract

We propose an automatic swearword filter system for online game chatting by using Support Vector Machines(SVM). We collected chatting sentences from online games and tagged them as normal sentences or swearword included sentences. We use n-gram syllables and lexical-part of speech (POS) tags of a word as features and select useful features by chi square statistics. Each selected feature is represented as binary weight and used in training SVM. SVM classifies each chatting sentence as swearword included one or not. In experiment, we acquired overall 90.4% of F1 accuracy.

온라인 게임의 활성화로 온라인 게임의 폐해도 증가하고 있는데 온라인 게임의 대표적인 폐해 중 하나인 언어 폭력 문제가 심각한 사회문제를 야기하고 있다. 본 논문은 온라인 게임의 채팅에 나타나는 비속어를 자동으로 차단하는 시스템을 제안한다. 우리는 온라인 게임의 채팅창에 나타나는 문장을 수집하였고 비속어 포함 문장과 정상 문장으로 수동으로 분류하였다. 음절 n-gram과 어휘-품사 쌍을 자질로 사용하며 카이제곱 통계량을 이용하여 자질을 선택한다. 선택된 자질들을 이진가중치로 표현하여 지지벡터기계(SVM)를 학습한 후, SVM 분류기로 각 문장의 차단 여부를 결정하였다. 실험 결과, 수집된 데이터에 대해 약 90.4%의 F1 정확률을 얻었다.

Keywords

References

  1. http://www.zdnet.co.kr/news/news_view.asp?artice_id =20110105084601, 2011.01.05.
  2. http://www.edaily.co.kr/news/NewsRead.edy?SCD=DB41&newsid=01922086589626600, 2009.03.24.
  3. http://www.ajnews.co.kr/view.jsp?newsId=20101021000646, 2010.10.21.
  4. 이성욱, "카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터", 정보처리학회논문지, 제17-B권, 제3호, pp.249-254, 2010.
  5. V. Keselj, E. Milios, A. Tuttle, S. Wang, and R. Zhang, "TREC 2005 Spam Track: Spam Filtering Using N-gram-based Techniques", Proceedings of Text REtrieval Conference, 2005.
  6. 김현준, 정재은, 조근식, "가중치가 부여된 베이지 안 분류자를 이용한 스팸 메일 필터링 시스템", 정보과학회논문지, 제31권 8호, 2004, pp.1092-1100.
  7. R. Segal, "IBM SpamGuru on the TREC 2005 Spam Track", Proceedings of Text REtrieval Conference, 2005.
  8. A. Brakto and B. Filipic, "Spam Filtering Using Character-Level Markov Models: Experiments for the TREC 2005 Spam Track", Proceedings of Text REtrieval Conference, 2005.
  9. L. A. Breyer, "DBACL at the TREC 2005", Proceedings of Text REtrieval Conference, 2005.
  10. F. Assis, W. Yerazunis, C. Siefkes, and S. Chhabra, "CRM114 versus Mr. X: CRM114 Notes for the TREC 2005 Spam Track", Proceedings of Text REtrieval Conference, 2005.
  11. W. Cao, A. An, and X. Huang, "York University at TREC 2005: SPAM Track", Proceedings of Text REtrieval Conference, 2005.
  12. P. Kolari, A. Java, and T. Finin, "Characterizing the splogosphere", Proceedings of WWW 2006, 3rd Annual Workshop on the Webloggging Ecosystem: Aggregation, Analysis and Dynamics. 2006.
  13. 이성욱, "지지벡터기계를 이용한 스팸 블로그 (Splog) 판별 시스템", 한국해양정보통신학회 논문지, 제15권, 제1호, pp.163-168, 2011
  14. 은종민, 이성욱, 서정연, "지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석", 정보처리학회논문지, 제.12-B권, 제3호, pp.365-368, 2005.
  15. Y. Yang and Jan O. Pedersen. "A comparative study on Feature selection in text categorization," Proceedings of the 14th International conference on Machine Learning, 1997.
  16. http://www.csie.ntu.edu.tw/-cjlin/libsvm, 2009.
  17. G. V. Cormack and T. R. Lynam. "TREC 2005 spam track overview," Proceedings of Text REtrieval Conference, 2005.