An Experimental Study on Text Categorization using an SVM Classifier

SVM 분류기를 이용한 문서 범주화 연구

  • 정영미 (연세대학교 문헌정보학과) ;
  • 임혜영 (연세대학교 문헌정보학과)
  • Published : 2000.12.01

Abstract

Among several learning algorithms for lexl calegoriration. SVM(Snpport Vsctor Machines) has been provcd to ouq~e~fotm other classifiers. Th~study e~~aluales the categarizalion ability of en SVM classifier using the ModApte split of the Reutcrs-21578 dataset. First. an experiment 1s perlormed to test a few feature wetghtlng schemes that will be used in thc calegarization tasks. Second, (he categorization periarrnances of the lulear SVM and the non-linear SVM are compared. Finally. the binary SVM classifier is expanded into a multi-class classifier and thek pcrforrnnnces are comparativcly evaluated.

문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

Keywords

References

  1. 한국정보과학회 가을 학술발표 논문집(II) v.26 no.2 SVM 학습을 이용한 다중 클래스 뉴스그룹 문서 분류 오장민;장병탁;김영택
  2. 제7회 한국정보관리학회 학술대회 논문집 문헌 자동분류에서 용어가중치 기법에 대한 연구 이재윤;최보영;정영미
  3. 제7회 한국정보 관리학회 학술대회 논문집 SVM을 이용한 한글문서 범주화 실험 최성환;임혜영;정영미
  4. Ph.D. diss., Darwin College Support Vector Machines applied to speech pattern classification Chin,K.K.
  5. An introduction to Support Vector Machines and other kernel-based learning methods Cristianini,Nello;John Shawe-Taylor
  6. Proceedings of ACM-CIKM 98 Inductive learning algorithms and representations for text categorization Dumais, Susan(et al.)
  7. Support Vector Machines for classification and regression, University of Southampton Gunn, Steve
  8. Classification by pairwise coupling, Stanford University and University of Toronto Hastie,T.;R.Tibshirani
  9. SVM light: Implementation of the decomposition training algorithm Joachims,Thorsten
  10. Proceedings 10th European Conference on Machine Learning(ECML) Text categorization with Support Vector Machines: Learning with many relevant features Joachims,Thorsten
  11. Advanced in kernel methods: Support Vector Machines Pairwise classification and Support Vector Machines Kressel, Ulrich H.G.
  12. Information Processing & Management v.24 no.5 Term-weighting approaches in automatic text retrieval Salton,G.;C.Buckley
  13. Advances in kernel methods : Support Vector Machines Scholkopf,Bernhard;Chris Burges;Alex J. Smola
  14. Information Retrieval van Rijsbergen,C.J.
  15. The nature of Statistical Learning Theory(2nd ed.) Vapnik,V.
  16. Multiclass Support Vector Machines, Royal Holloway University of London Weston,C.;C.Watkins
  17. Machine Learning : Proceedings of the Fourteenth International Conference(ICML97) A comparative study on feature selection in text categorization Yang, Yiming;J.O.Pedersen
  18. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) A re-examination of text categorization methods Yang, Yiming;Xin Liu