Automatic Document Classification Based on Word Frequency Weight

단어 빈도 가중치를 이용한 자동 문서 분류

  • Noh, Hyun-A (Dept. of Computer Science, Chonnam National University) ;
  • Kim, Min-Soo (Dept. of Statistics, Chonnam National University) ;
  • Kim, Soo-Hyung (Dept. of Computer Science, Chonnam National University) ;
  • Park, Hyuk-Ro (Dept. of Computer Science, Chonnam National University)
  • Published : 2002.11.15

Abstract

본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

Keywords