Text Document Classification Scheme using TF-IDF and Naïve Bayes Classifier

TF-IDF와 Naïve Bayes 분류기를 활용한 문서 분류 기법

  • Yoo, Jong-Yeol (Dept. of Information & Communications Engineering, Daejeon University) ;
  • Hyun, Sang-Hyun (Dept. of Information & Communications Engineering, Daejeon University) ;
  • Yang, Dong-Min (Dept. of Information & Communications Engineering, Daejeon University)
  • 유종열 (대전대학교, 정보통신공학과) ;
  • 현상현 (대전대학교, 정보통신공학과) ;
  • 양동민 (대전대학교, 정보통신공학과)
  • Published : 2015.10.26

Abstract

Recently due to large-scale data spread in digital economy, the era of big data is coming. Through big data, unstructured text data consisting of technical text document, confidential document, false information documents are experiencing serious problems in the runoff. To prevent this, the need of art to sort and process the document consisting of unstructured text data has increased. In this paper, we propose a novel text classification scheme which learns some data sets and correctly classifies unstructured text data into two different categories, True and False. For the performance evaluation, we implement our proposed scheme using $Na{\ddot{i}}ve$ Bayes document classifier and TF-IDF modules in Python library, and compare it with the existing document classifier.

최근 디지털 경제의 확산으로 대규모의 데이터들이 생성되는 빅데이터 시대가 도래하고 있다. 이러한 빅데이터에서 비정형 데이터 중에서 기술문서, 기밀문서, 허위정보문서 등 유출 시 심각한 문제가 발생하는 텍스트 문서들이 존재한다. 이러한 문제를 방지하기 위해 비정형 텍스트 문서를 분류하고 처리하는 기술의 필요성이 크게 증가하고 있다. 본 논문에서는 TF-IDF와 $Na{\ddot{i}}ve$ Bayes 문서 분류 기법을 이용하여 비정형 텍스트 문서들을 정확하게 분류하는 기법을 제안한다. 제안된 기법의 성능평가를 위해서 파이썬 라이브러리의 TF-IDF와 $Na{\ddot{i}}ve$ Bayes 분류 기능을 활용하여 문서 분류기를 구현한다.

Keywords