Efficient Document Classification for Web Document Collection

웹 문서 수집을 위한 효율적인 문서 분류

  • Lee, Jung-Hun (Department of Internet Computing, Dongguk University) ;
  • Cheon, Suh-Hyun (Department of Internet Computing, Dongguk University) ;
  • Kim, Sun-Hee (Department of Internet Computing, Dongguk University)
  • 이정훈 (동국대학교 컴퓨터공학과) ;
  • 전서현 (동국대학교 컴퓨터공학과) ;
  • 김선희 (전남대학교 전산학과)
  • Published : 2006.10.20

Abstract

최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

Keywords