An Automatic Document Classification with Bayesian Learning

베이지안 학습을 이용한 문서의 자동분류

  • Kim, Jin-Sang (School of Computer and Electronics Engineering, Keimyung University) ;
  • Shin, Yang-Kyu (School of Information Science, Kyungsan University)
  • 김진상 (계명대학교 컴퓨터 전자공학부) ;
  • 신양규 (경산대학교 정보과학부)
  • Published : 2000.04.30

Abstract

As the number of online documents increases enormously with the expansion of information technology, the importance of automatic document classification is greatly enlarged. In this paper, an automatic document classification method is investigated and applied to UseNet 20 newsgroup articles to test its efficacy. The classification system uses Naive Bayes classification algorithm and the experimental result shows that a randomly selected newsgroup arcicle can be classified into its own category over 77% accuracy.

정보통신기술의 비약적인 발전은 온라인으로 생성되는 전자문서의 양을 폭발적으로 증가시키고 있다. 따라서 수동으로 문서를 분류하던 종래의 방법 대신 문서의 자동분유 기술 개발이 특별히 요구되고 있다. 본 논문에서는 베이지안 학습 기법을 이용하여 문서를 자동으로 분류하는 방법을 연구하고, 20개의 유즈넷 뉴스그룹 문서들을 분류하도록 시험하였다. 사용한 알고리즘은 Naive Bayes Classifier이며, 구현한 시스템을 이용해 유즈넷 문서를 대상으로 자동분류를 실험한 결과 분류의 정확률이 약 77%로 나타났다.

Keywords

References

  1. 인드라넷
  2. VLDB Journal v.7 Scalable feature selection, classification and signature generation for organizing large text databases into hierarchical topic taxonomies S. Chakrabarti;B. Dom;R. Agrawal;P. Raghavan
  3. Twelfth International Conference on Machine Learning Fast effective rule induction W. Cohen
  4. SIGIR-96 Context-sensitive learning methods for text categorization W. Cohen
  5. AAAI-96 Learning Trees and Rules with Set-valued Features W. Cohen
  6. Machine Learning T. Mitchell
  7. Computer Systems That Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning, and Expert Systems S. Weiss;C. Kulikowski