Automatic Classification of Blog Posts Considering Category-specific Information

범주별 고유 정보를 고려한 블로그 포스트의 자동 분류

  • Kim, Suah (Dept. of Computer Software Engineering, Kumoh National of Institute of Technology) ;
  • Oh, Sungtak (Dept. of Electrical and Computer Engineering, Sungkyunkwan University) ;
  • Lee, Jee-Hyong (Dept. of Electrical and Computer Engineering, Sungkyunkwan University)
  • 김수아 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 오성탁 (성균관대학교 전자전기컴퓨터공학과) ;
  • 이지형 (성균관대학교 전자전기컴퓨터공학과)
  • Published : 2015.01.22

Abstract

많은 블로그 제공 사이트는 블로그 포스트 작성자에게 미리 정의된 범주 (category)에 따라 포스트의 주제에 대하여 범주를 선택할 수 있는 환경을 제공한다. 그러나 블로거들은 작성한 포스트의 범주를 매번 수동으로 선택해야 하는 불편함이 있다. 이러한 불편함의 해결을 위해 블로그 포스트를 자동으로 분류해주는 기능을 제공한다면 블로그의 활용성이 증가할 것이다. 기존의 블로그 문서 분류의 연구는 각 범주의 고유 정보를 반영하는 것에 한계가 있었다. 이러한 문제를 해결하기 위해, 본 논문에서는 범주별 고유 정보를 반영한 어휘 가중치를 제안한다. 어휘 가중치의 분석을 위하여 범주별로 블로그 문서를 수집하고, 수집한 문서에서 어휘의 빈도와 문서의 빈도, 범주별 어휘빈도 등을 고려하여 새로운 지표인 CTF, CDF, IECDF를 개발하였다. 이러한 지표를 기반으로 기존의 Naive Bayes 알고리즘으로 학습하여, 블로그 포스트를 자동으로 분류하였다. 실험에서는 본 논문에서 제안한 가중치 방법인 TF-CTF-CDF-IECDF를 사용한 분류가 가장 높은 성능을 보였다.

Keywords