DOI QR코드

DOI QR Code

User Access Patterns Discovery based on Apriori Algorithm under Web Logs

웹 로그에서의 Apriori 알고리즘 기반 사용자 액세스 패턴 발견

  • Ran, Cong-Lin (Department of Information Technology Center, Jiujiang University,) ;
  • Joung, Suck-Tae (Department of Computer and Software Engineering, Wonkwang University)
  • Received : 2019.11.06
  • Accepted : 2019.12.27
  • Published : 2019.12.31

Abstract

Web usage pattern discovery is an advanced means by using web log data, and it's also a specific application of data mining technology in Web log data mining. In education Data Mining (DM) is the application of Data Mining techniques to educational data (such as Web logs of University, e-learning, adaptive hypermedia and intelligent tutoring systems, etc.), and so, its objective is to analyze these types of data in order to resolve educational research issues. In this paper, the Web log data of a university are used as the research object of data mining. With using the database OLAP technology the Web log data are preprocessed into the data format that can be used for data mining, and the processing results are stored into the MSSQL. At the same time the basic data statistics and analysis are completed based on the processed Web log records. In addition, we introduced the Apriori Algorithm of Web usage pattern mining and its implementation process, developed the Apriori Algorithm program in Python development environment, then gave the performance of the Apriori Algorithm and realized the mining of Web user access pattern. The results have important theoretical significance for the application of the patterns in the development of teaching systems. The next research is to explore the improvement of the Apriori Algorithm in the distributed computing environment.

웹 사용 패턴 발견은 웹 로그 데이터를 사용하는 고급 수단이며 웹 로그 데이터 마이닝에 데이터 마이닝 기술을 적용한 특정 응용이다. 교육 분야에서 데이터 마이닝 (DM)은 데이터 마이닝 기술을 교육 데이터 (대학의 웹 로그, e-러닝, 적응형 하이퍼미디어 및 지능형 튜터링시스템 등)에 적용한다. 따라서 교육 연구 문제를 해결하기 위해 이러한 유형의 데이터를 분석하는 것이 목표이다. 본 논문에서는 대학의 웹 로그 데이터가 데이터 마이닝의 연구 대상으로 사용되어 진다. 데이터베이스 OLAP 기술을 사용하여 웹 로그 데이터가 데이터 마이닝에 사용될 수 있는 데이터 형식으로 사전 처리되고 그 처리 결과가 MSSQL에 저장된다. 동시에 처리 된 웹 로그 레코드를 기반으로 기본 데이터 통계 및 분석이 완료된다. 또한 웹 사용 패턴 마이닝의 Apriori Algorithm 및 구현 프로세스를 소개하고 Python 개발 환경에서 Apriori Algorithm 프로그램을 개발했다. 그런 다음 Apriori Algorithm의 성능을 보이고 웹 사용자 액세스 패턴의 마이닝을 실현했다. 이 연구 결과는 교육 시스템 개발에 패턴을 적용하는데 중요한 이론적 의미를 갖는다. 다음 연구로는 분산 컴퓨팅 환경에서 Apriori Algorithm의 성능 향상을 연구하는 것이다.

Keywords

References

  1. C. Romero and S. Ventura, "Educational Data Mining: A Review of the State-of-the-Art", Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, Vol. 40, pp. 601-618, 2010. https://doi.org/10.1109/TSMCC.2010.2053532
  2. Educational Data Mining. Dec. 2019. Accessed online from http://www.educationaldatamining.org/.
  3. Y. Y. Liao, "The Application of Web Mining in Distance Education Platform", Proc. of 2nd International Symposium on Computer, Communication, Control and Automationn, pp. 595-597, 2013.
  4. R. Agrawal and R. Srikant, "Fast algorithms for mining association rules", Proc. of International Conference on Very Large Database, pp. 487-499, 1994.
  5. The Apriori Algorithm. Aug. 2019. Accessed online from https://en.wikipedia.org/wiki/Apriori_algorithm.
  6. G. Neelima and S. Rodda, "An Overview on Web Usage Mining", Advances in Intelligent Systems and Computing, Vol. 338, pp. 649-652, 2015.
  7. Z. L. Yu, W. T. Zhang and H. Ge, "Hadoop platform based log analysis mode", Computer Engineering and design, Vol. 37, pp. 233-343, 2016.
  8. J. Zhang and Z. H. Tian, "Association-relation mining based on web logs under IIS", Huazhong Univ. of Sci. & Tech.(Nature Science Edition), Vol. 30, pp. 36-39, 2002.
  9. Web mining. Mar. 2019. Accessed online from https://en.wikipedia.org/wiki/Web mining.
  10. C. L. Ran and S. T. Joung, "Research on Data Acquisition Strategy and Its Application in Web Usage Mining", Korea Information Electron Communication Technology, Vol. 12, pp. 232-234, 2019.