Page Logging System for Web Mining Systems

웹마이닝 시스템을 위한 페이지 로깅 시스템

  • Published : 2001.12.01

Abstract

The Web continues to grow fast rate in both a large aclae volume of traffic and the size and complexity of Web sites. Along with growth, the complexity of tasks such as Web site design Web server design and of navigating simply through a Web site have increased. An important input to these design tasks is the analysis of how a web site is being used. The is paper proposes a Page logging System(PLS) identifying reliably user sessions required in Web mining system PLS consists of Page Logger acquiring all the page accesses of the user Log processor producing user session from these data, and statements to incorporate a call to page logger applet. Proposed PLS abbreviates several preprocessing tasks which spends a log of time and efforts that must be performed in Web mining systems. In particular, it simplifies the complexity of transaction identification phase through acquiring directly the amount of time a user stays on a page. Also PLS solves local cache hits and proxy IPs that create problems with identifying user sessions from Web sever log.

웹은 그 양적인 면이나 복잡도에 있어 현재 놀라운 속도로 급성장학고 있다. 이와함께 웹사이트 설계나 웹서버나 설계와 같은 작업은 물론 단순희 웹사이트를 검색하는 작업에 있어서도 그 복잡도가 크게 증가했다. 이러한 설계 작업들에 있어서 중요한 입력 요소로는 웹사이트가 어떻게 사용되고 이TSms가에 대한 정확한 데이터가 필수적으로 요구된다. 본 연구에서는 웹 마이닝 시스템에서 요구되는 사용자의 웹페이지 이용정보 즉 사용자 세션(user sessions)을 효과적으로 획득할수 있는 페이지 로깅 시스템(Page Logging System:PLS)을 제안한다. 페이지 로깅 시스템은 사용자의 웹페이지 탐색 정보를 획득하는 페이지 로깅(page logger)와 획득한 데이처를 이용하여 사용자 세션 파일을 생성하는 로그 처리기(log processor)그리고웹 사이트의 HTML 페이지에 페이지 로거 애플릿을 삽입하는 코드로 구성된다. 제안한 PLS는 기존의 웹 마이닝 시스템에서 많은 시간과 비용을 수반했던 데이터 전처리 작업의 일부를 제거한다. 특히 사용자가 각 페이지를 탐색한 시간 (access length)을 직접 획득함으로서 트랜잭션 구분 단계를 단순화시킨다. 또한 PLS는 기존의 웹서버 로그로부터 사용자 세션을 획득함에 있어 가장 문제가 되었던 로컬 캐쉬(local cache)및 ISP가 제공하는 프록시 서버 사용으로 인하여 야기되는 문제등을 해결한다.

Keywords

References

  1. Alex G. Buchner, Maurice D. Mulvenna, 'Discovering Internet Marketing Intelligence through Online Analytical Web Usage Mining,' SIGMOD Record, (4) 27, 1999 https://doi.org/10.1145/306101.306124
  2. http://www.w3.org/Daemon/User/Config/Logging.html
  3. R. Cooley, B. Mobasher, and J. Srivastava, 'Data preparation for mining World Wide Web browsing patterns.' Journal of Knowledge and Information Systems, (1) 1. 1999
  4. B. Mobasher, N. Jain, E. Han, and J. Srivastava, 'Web Mining : Pattern discovery from World Wide Web Transactions,' Technical Report TR96 050, Univ. of Minnesota, Dept. of Computer Science, Minneapolis, 1996
  5. R. Cooley, B. Mobasher, and J. Srivastava, 'Web Mining: Information and pattern discovery on the World Wide Web.' In International Conference on Tools with Artificial Intelligence, pp.558-567, Newport Beach, CA, 1997
  6. R. Cooley, B. Mobasher, and J. Srivastava, 'Grouping Web Page References into Transactions for Mining World Wide Web Browsing Patterns,' Proc. of the 1997 IEEE Knowledge and Data Engineering Exchange Workshop(KDEX 97), Nov. 1997 https://doi.org/10.1109/KDEX.1997.629824
  7. Osmar R. Zaiane, Man Xin, Jiawei Han, 'Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs,' School of Computing Science, Simon Fraser University, 1998
  8. J. Pitkow, 'In search of reliable usage data on the WWW,' In Sixth International World Wide Web Conference, pp. 451-463, 1997
  9. World Wide Web Committee(W3C) Web usage Characterization Activity(WCA), http://www.w3c.org/WCA, 1999
  10. M. S. Chen, J. S. Park, and P. S. Yu, 'Data mining for path traversal patterns in a web environment,' In Proceedings on the 16th International Conference on Distributed Computing Systems, pp. 385-392, 1996 https://doi.org/10.1109/ICDCS.1996.507986
  11. http://software.tangent.org/modlayout/
  12. P. Pirolli, J. Pitkow, and R. Rao, 'Silk from a sow's ear : Extracting usable structures from the Web,' In Proc. of 1996 Conference on Human Factors in Computing Systems(CHI-96), 1996 https://doi.org/10.1145/238386.238450
  13. L. Catledge and J. Pitkow, 'Characterizing browsing behaviors on the World Wide Web,' Computer Networks and ISDN Systems, 27(6), 1995 https://doi.org/10.1016/0169-7552(95)00043-7
  14. C. Cunha, A. Bestavros, and M. Crovella, 'Characteristics of www client-based traces,' Technical Report TR-95-010, Boston University, CS Dept., Boston, MA02215, 1995