Automatic Text Categorization Using Term Information of Anchor Text

Heo, Hee-keun;Han, Gi-deok;Jung, Sung-won;Lim, Sung-shin;Kwon, Hyuk-chul;

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2004.05a
/
Pages.665-668
/
2004
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

Automatic Text Categorization Using Term Information of Anchor Text

Anchor Text의 단어 정보를 이용한 자동 문서 범주화

Heo, Hee-keun (Dept. of Computer Science and Engineering, Pusan National University) ;
Han, Gi-deok (Dept. of Computer Science and Engineering, Pusan National University) ;
Jung, Sung-won (Dept. of Computer Science and Engineering, Pusan National University) ;
Lim, Sung-shin (Dept. of Computer Science and Engineering, Pusan National University) ;
Kwon, Hyuk-chul (Dept. of Computer Science and Engineering, Pusan National University)

허희근 (부산대학교 정보컴퓨터공학부) ;
한기덕 (부산대학교 정보컴퓨터공학부) ;
정성원 (부산대학교 정보컴퓨터공학부) ;
임성신 (부산대학교 정보컴퓨터공학부) ;
권혁철 (부산대학교 정보컴퓨터공학부)

Published : 2004.05.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Automatic Text Categorization Using Term Information of Anchor Text

Anchor Text의 단어 정보를 이용한 자동 문서 범주화

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)