Web Structure Mining Using Web Access Log

웹 접근로그를 활용한 웹 구조 마이닝

  • Park, C.H. (Graduate School of Korea Maritime University) ;
  • Lee, S.D. (Graduate School of Korea Maritime University) ;
  • Jeon, S.H. (Graduate School of Korea Maritime University) ;
  • Park, H.C. (Division of Information Technology, Korea Maritime University)
  • 박철현 (한국해양대학교 대학원) ;
  • 이성대 (한국해양대학교 대학원) ;
  • 전성환 (한국해양대학교 대학원) ;
  • 박휴찬 (한국해양대학교 IT 공학부)
  • Published : 2006.11.10

Abstract

웹의 급속한 성장으로 정보의 양이 많아졌지만 디자인의 비중이 커지면서 웹 문서에 대한 구조를 추출하는데 어려움이 있다. 웹은 사용자가 원하는 정보를 쉽고 정확하게 검색할 수 있도록 웹 문서의 내용을 구조화하여 지속적으로 개선하면서 사용자의 특성과 행동 패턴에 따라 개인화 하여야한다. 이러한 문제를 해결하기 위해서는 웹 문서들 간의 정확한 구조를 추출하는 것이 선행되어야 한다. 본 논문에서는 보다 웹 사이트의 정확한 구조를 추출하기 위한 방법을 제안한다. 제안 방법은 기본적으로 웹문서 태그의 하이퍼링크와 플래시 파일을 2진 형태의 문서로 불러 하이퍼링크를 추출하고 이를 깊이 우선 탐색 알고리즘을 사용하여 방향그래프로 만든다. 하지만 이러한 웹 문서 태그 탐색 시 애플릿이나 스크립트 등에 숨어 있는 하이퍼링크를 찾는 문제와 '뒤로' 버튼 사용 시 웹 접근로그에 기록되지 않는 문제점이 보완되어야 한다. 이를 위해 클릭 스트림을 스택에 저장하여 이미 만들어진 방향그래프와 비교하여 새롭게 찾은 정점과 간선을 추가 삭제함으로써 보다 신뢰성 높은 방향 그래프를 만든다.

Keywords