Automatic Text Categorization Using Term Information of Anchor Text

Anchor Text의 단어 정보를 이용한 자동 문서 범주화

  • Heo, Hee-keun (Dept. of Computer Science and Engineering, Pusan National University) ;
  • Han, Gi-deok (Dept. of Computer Science and Engineering, Pusan National University) ;
  • Jung, Sung-won (Dept. of Computer Science and Engineering, Pusan National University) ;
  • Lim, Sung-shin (Dept. of Computer Science and Engineering, Pusan National University) ;
  • Kwon, Hyuk-chul (Dept. of Computer Science and Engineering, Pusan National University)
  • 허희근 (부산대학교 정보컴퓨터공학부) ;
  • 한기덕 (부산대학교 정보컴퓨터공학부) ;
  • 정성원 (부산대학교 정보컴퓨터공학부) ;
  • 임성신 (부산대학교 정보컴퓨터공학부) ;
  • 권혁철 (부산대학교 정보컴퓨터공학부)
  • Published : 2004.05.14

Abstract

최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

Keywords