Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm

Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류

  • 고수정 (인하대학교 대학원 전자계산학과) ;
  • 이정현 (인하대학교 전자계산공학과)
  • Published : 2001.06.01

Abstract

기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

References

  1. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994
  2. R. Agrawal and T. Imielinski and A.Swami, 'Mining association rules between sets of items in large databases,' In Proceedings of the 1993 ACM SIGMOD Conference, Washington DC, USA, 1993 https://doi.org/10.1145/170035.170072
  3. H. Chen, Y. Chung, M. Ramsey, C. Yang, P. Ma, J. Yen, 'Intelligent Spider for Internet Searching,' Proceedings of the 30th Annual Hawaii International Conference on System Sciences-Volume IV, pp.178-188, 1997 https://doi.org/10.1109/HICSS.1997.663379
  4. T. Joachims, 'A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization,' ICML-97, 1997
  5. V. Hatzivassiloglou and K. McKeown, 'Towards the automatic identification of adjectival scales : Clustering adjectives according to meaning,' Proceedings of the 31st Annual Meeting of the ACL, pp.172-182, 1993 https://doi.org/10.3115/981574.981597
  6. Introduction to Rainbow URL : http://www.cs.cmu.edu/afs/cs/project/theoll/www/naive-bayes.html
  7. D. D. Lewis, 'Naive(Bayes) at forty : The Independence Assumption in Information Retrieval,' In European Conference on Machine Learning, 1998
  8. Y. H. Li and A. K. Jain, 'Classification of Text Documents,' The Computer Journal, Vol.41, No.8, 1998 https://doi.org/10.1093/comjnl/41.8.537
  9. M. E. Maron, 'Automatic indexing : An experimental inquiry,' Journal of the Association for Computing Machinery, 8 : 404-417, 1961 https://doi.org/10.1145/321075.321084
  10. T. Michael, Maching Learning, McGraw-Hill, pp.154-200, 1997
  11. A. McCallum and K. Nigram, 'A Comparison of Event Models for Naive Bayes Text Classification,' AAAI-98 Workshop on Learning for Text Categorization, 1998
  12. J. McMahon and F. Smith, 'Improving statistical language model performance with automatically generated word hierarchies,' Computational Linguistics, Vol.22, No.2, 1995
  13. 인하대학교, 사용자 중심의 지능형정보검색 시스템, 최종 연구 개발 보고서, 정보통신부, 1997
  14. 정영미, 정보검색론, 구미무역(주)출판부, 1993
  15. 조광제, 김준태, '역 카테고리 빈도에 의한 계층적 분류체제에서의 문서의 자동 문서 분류 시스템', 정보과학회 봄 학술발표논문집, 4권 2호, pp.508-510, 1997
  16. 한광록, 선복근, 한상태, 임기욱, '인터넷 문서 자동 분류 시스템 개발에 관한 연구', 제9회 한국정보처리학회 논문집, 제7권 제9호, pp.2867-2875, 2000
  17. 허준희, 가중치가 부여된 베이지안 분류자와 단어 군집을 이용한 한국어 문서 자동분류, 인하대학교 대학원 컴퓨터공학과 석사학위 논문, 2000