DOI QR코드

DOI QR Code

A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상

  • 이용훈 (단국대학교 전자계산학과) ;
  • 이상범 (단국대학교 전자계산학과)
  • Received : 2010.10.21
  • Accepted : 2010.12.17
  • Published : 2010.12.31

Abstract

Text categorization is one of important features in information searching system which classifies documents according to some criteria. The general method of categorization performs the classification of the target documents by eliciting important index words and providing the weight on them. Therefore, the effectiveness of algorithm is so important since performance and correctness of text categorization totally depends on such algorithm. In this paper, an enhanced method for text categorization by improving word weighting technique is introduced. A method called Okapi BM25 has been proved its effectiveness from some information retrieval engines. We applied Okapi BM25 and showed its good performance in the categorization. Various other words weights methods are compared: TF-IDF, TF-ICF and TF-ISF. The target documents used for this experiment is Reuter-21578, and SVM and KNN algorithms are used. Finally, modified Okapi BM25 shows the most excellent performance.

문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

Keywords

References

  1. Sebastiani. "Machine learning in automated text categorization." Techinical report, Consigilo Nazionale delle Rieche, Italy. 1999.
  2. T.Mitchell. "Machine Learning." MCGraw Hill, NY, US, 1996.
  3. Yang, Y. and J. O. Pderson. "A comparative study on feature selection in text categorization." Proceedings of the 14th International Conference on Machine Learning. 1997.
  4. Gerard Salton and Michael J. McGill. "Introduction to Modern Information Retrieval." McGraw-Hill Book Company, New York, 1983.
  5. 조광제, 김준태. "역카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동분류." 한국정보과학회 봄학술발표논문집(B), 507-510. 1997.
  6. Larocca Neto, Joel. "A Text Mining Tool for Document Clustering and Text Summarization.", Proceedings of The Text Mining Tool for Document Clustering and Text Summarization Fourth International Conference on The Practical Application of Knowledge Discovery and Data Mining, 41-56.Manchester, UK. Apr, 2000.
  7. Osuna, E., Freund R., and Girosi, F. "Training support vector machines: An application to face detection", Proceedings of Compuer Vision and Pattern Recognition, pp. 130-136, 1997.
  8. Dasarathy, Belur V. "Nearest Neighbor(NN) Norms: NN Pattern Classificatioin Techniques." McGraw-Hill Computer Science Series, CA: IEEE Computer Society Press. 1991.
  9. 리청화, "BPNN의 효율적인 개선방법 및 개념에 기초한 문서분류 시스템 응용" 전북대학교 대학원 박사논문. 2009
  10. 정은경, "문서 범주화 효율성 제고를 위한 정보원평가에 관한 연구 ", 한국정보관리학회, 제24권, 제4호, pp. 305-321, 12월, 2007.
  11. David D. Lewis. "Distribution 1.0 readme file (v1.2) for reuters-21578", AT&T Labs - Research, 1997.
  12. GSalton, "Automatic Information Organization and Retrieval." New York:McGraw-Hill, 1968.
  13. M. F. Porter. "An algorithm for suffix stripping." Program, Vol. 14 no.3 130-137. 1980. https://doi.org/10.1108/eb046814
  14. Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. (1994) "Okapi at TREC-3". In Proceedings of the Third Text REtrieval Conference (TREC 1994).
  15. Chin-Chung Chang and Chih-Jen Lin, LIBSVM: a library for SVM, URL : http://www.csie.ntu.edu.tw/-cjlin/libsvm
  16. D.D.Lewis, "Evaluating text categorization", in Proceedings of the Speech and Natural Language Workshop, 1991.