Clustering of Web Document Exploiting with the Union of Term frequency and Co-link in Hypertext

단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구

  • 이교운 (울산과학대학 컴퓨터정보학부, 부산대학교 한국어정보처리연구실) ;
  • 이원희 (부산대학교 한국어정보처리연구실) ;
  • 박흠 (부산대학교 한국어정보처리연구실) ;
  • 김영기 (부산대학교 문헌정보학과, 부산대학교 한국어정보처리연구실 IR팀) ;
  • 권혁철 (부산대학교 전자전기정보컴퓨터공학부)
  • Published : 2003.09.01

Abstract

In this paper, we have focused that the number of word in the web document affects definite clustering performance. Our experimental results have clearly shown the relationship between the amounts of word and its impact on clustering performance. We also have presented an algorithm that can be supplemented of the contrast portion through co-links frequency of web documents. Testing bench of this research is 1,449 web documents included on 'Natural science' category among the Naver Directory. We have clustered these objects by term-based clustering, link-based clustering, and hybrid clustering method, and compared the output results with originally allocated category of Naver directory.

이 연구에서는 웹 문서가 갖고 있는 특성, 특히 웹 문서에 포함된 단어 수가 클러스터링 성능에 결정적인 영향을 미친다는 전제 하에, 웹 문서에 포함된 단어 수와 클러스터링 성능과의 관계를 밝힌 다음, 이 부분을 웹 문서의 동시인용 빈도를 이용해 보완할 수 있는 알고리즘을 제시한다. 이 연구에서는 네이버 디렉터리 중 '자연과학' 법주에 포함된 1,449개의 웹 문서를 대상으로 단어기반 클러스터링과 링크기반 클러스터링, 그리고 단어-링크 혼합 클러스터링 기법으로 클러스터링 해 보았으며, 그 결과를 네이버 디렉터리에 초기 할당된 법주와 비교해 보았다.

Keywords

References

  1. 제19회 한국정보관리학회 학술대회 논문집 인용문헌을 이용한 검색 성능 향상에 관한 실험적 연구 국민상;정영미
  2. 한국도서관 · 정보학회지 v.34 no.2 동시링크를 이용한 웹 문서 클러스터링 실험 김영기;이원희;권혁철
  3. 제11회 한글 및 한국어 정보처리 학술대회 점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델 오효정;임정묵;이만호;맹성현
  4. 제10회 한글 및 한국어 정보처리 학술대회 문서구조 정보에 기반한 웹 페이지 범주화 모델 정상화;이종혁
  5. 한글 및 한국어 정보처리 v.제14집 웹 문서 중 의미 있는 표의 추출 정성원;이원희;김영기;권혁철
  6. 문헌분류의 이론과 실제 최정태;양재한;도태현
  7. Proc. of the 17th Annual International ACM-SIGIR Towards language independent automated learning of text categorization models Apte, Chidanand;Damerau, Fred;Weis, Sholom M.
  8. Proc. of the 21th Annual International ACM-SIGIR Distributional clustering of words for text classification Baker, L. Douglas;Maccallum Andrew K.
  9. Finding Out About: A Cognitive perspective on search engine technology and the WWW Belew, R. K.
  10. Proc. of International Conference on SIGMOD'98 Enhanced hypertext categorization using hyperlinks Chakrabarti, Soumen;Dom, Byron;Piotr Indyk
  11. Proc. of European Conference on Machine Learning, ECML '98 Text categorization with support vector machines Joachims, Thorsten
  12. American Documentation v.14 no.1 Bibliographic coupling between scientific papers Kessler, M. M. https://doi.org/10.1002/asi.5090140103
  13. Proc. of the 21th Annual International ACM-SIGIR Automatic essay grading using text categorization techniques Larkey, Leah S.
  14. Proc. of the 3rd Annual Symposium on Document Analysis and Information Retrieval A comparison of two learning algorithms for text categoriation Lewis, David L.;Ringuette, Marc
  15. Proc. of the 19th Annual International ACM-SIGIR Training algorithms for linear text classifier Lewis, David L.;Schapire, Robert E.;Callan, James P.;Papka. Ron
  16. Journal of American society for Information Science v.24 Co-citation in the scientific literature: A new measure of the relationship between two documents Small, H. https://doi.org/10.1002/asi.4630240406
  17. Technical Report TR #01-40, Department of Computer Science, University of Minnesota Criterion functions for document clustering-experiment and analysis Zhao, Ying;Karypis, George
  18. Technical Report TR #02-22, Department of Computer Science, University of Minnesota Evaluation of hierarchical clustering algorithms for document datasets Zhao, Ying;karypis, George
  19. Technical Report TR #02-017, Department of Computer Science, University of Minnesota CLUTO: A Clustering Toolkit Karypis, George