단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구

Clustering of Web Document Exploiting with the Union of Term frequency and Co-link in Hypertext

  • 이교운 (울산과학대학 컴퓨터정보학부, 부산대학교 한국어정보처리연구실) ;
  • 이원희 (부산대학교 한국어정보처리연구실) ;
  • 박흠 (부산대학교 한국어정보처리연구실) ;
  • 김영기 (부산대학교 문헌정보학과, 부산대학교 한국어정보처리연구실 IR팀) ;
  • 권혁철 (부산대학교 전자전기정보컴퓨터공학부)
  • 발행 : 2003.09.01


이 연구에서는 웹 문서가 갖고 있는 특성, 특히 웹 문서에 포함된 단어 수가 클러스터링 성능에 결정적인 영향을 미친다는 전제 하에, 웹 문서에 포함된 단어 수와 클러스터링 성능과의 관계를 밝힌 다음, 이 부분을 웹 문서의 동시인용 빈도를 이용해 보완할 수 있는 알고리즘을 제시한다. 이 연구에서는 네이버 디렉터리 중 '자연과학' 법주에 포함된 1,449개의 웹 문서를 대상으로 단어기반 클러스터링과 링크기반 클러스터링, 그리고 단어-링크 혼합 클러스터링 기법으로 클러스터링 해 보았으며, 그 결과를 네이버 디렉터리에 초기 할당된 법주와 비교해 보았다.

In this paper, we have focused that the number of word in the web document affects definite clustering performance. Our experimental results have clearly shown the relationship between the amounts of word and its impact on clustering performance. We also have presented an algorithm that can be supplemented of the contrast portion through co-links frequency of web documents. Testing bench of this research is 1,449 web documents included on 'Natural science' category among the Naver Directory. We have clustered these objects by term-based clustering, link-based clustering, and hybrid clustering method, and compared the output results with originally allocated category of Naver directory.



