Design and implementation of data mining tool using PHP and WEKA

피에이치피와 웨카를 이용한 데이터마이닝 도구의 설계 및 구현

  • You, Young-Jae (Department of Bioinformatics, Changwon National University) ;
  • Park, Hee-Chang (Department of Statistics, Changwon National University)
  • Published : 2009.03.31

Abstract

Data mining is the method to find useful information for large amounts of data in database. It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. We need a data mining tool to explore a lot of information. There are many data mining tools or solutions; E-Miner, Clementine, WEKA, and R. Almost of them are were focused on diversity and general purpose, and they are not useful for laymen. In this paper we design and implement a web-based data mining tool using PHP and WEKA. This system is easy to interpret results and so general users are able to handle. We implement Apriori algorithm of association rule, K-means algorithm of cluster analysis, and J48 algorithm of decision tree.

데이터마이닝은 방대한 양의 데이터 속에서 유용한 정보를 찾아내는 과정이며, 이를 위해 데이터마이닝 도구가 필요하다. 데이터마이닝 도구 또는 솔루션은 E-Miner, Clementine, WEKA, R 등 상당히 많은 종류가 있으나 대부분의 데이터마이닝 도구는 다양성과 범용성에 초점을 맞추어 개발되어 사용 편의성과 분석 자동화에 대해서는 소홀한 실정이어서 비전문가가 사용하기 어려운 경우가 대부분이다. 본 논문에서는 피에이치피와 웨카를 이용하여 인터넷 환경에서 데이터마이닝 기법을 실행하고, 생성된 분석결과를 보다 쉽게 해석할 수 있도록 개선하여 일반 사용자도 쉽게 사용할 수 있는 시스템을 설계하고 구현하고자 한다. 본 논문에서 구현하는 데이터마이닝 기법은 가장 많이이용되고 있는 연관성 규칙의 Apriori 알고리즘, 군집분석의 K-평균 알고리즘, 의사결정나무의 J48 알고리즘 등이다.

Keywords

References

  1. 김성수, 박희진, 조영훈, 오진호 (2005). R을 이용한 회귀분석과 실험계획법 시스템 구축. <한국통계학회 2005 추계 학술발표회 논문집>, 5-11.
  2. 박인우, 권재기 (2007). 대학의 성공적인 ERP 구축을 위한 대학특성 유형분석. <교육문제연구>, 29, 73-101.
  3. 이창호, 이남근, 이승희, 이병엽, 김주용 (2000). 시나리오 기반의 데이터 마이닝 도구 XM-Tool/Miner 설계 및 구현. <한국지능정보시스템학회 2000년 학술대회논문집>, 2, 307-314.
  4. 정인근, 이명무, 김용진 (2002). Perl/CGI와 피에이치피의 비교를 통한 웹 어플리케이션 개발성과에 미치는 영향에 관한 연구. <한국경영과학회 2002 춘계학술대회논문집>, 2, 307-314.
  5. Agrawal, R., Imielinski R. and Swami, A. (1993). Mining assocation rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
  6. Breiman, L., Friedman, J., Olshen, R. and Stone, C. (1984). Classification and regression trees, Wadsworth International Group, Belmont, California.
  7. Han J. and Kamber M. (2001). Data mining: Concepts and techniques, Morgan Kaufmann, San Francisco.
  8. Hartigan, J. A. (1975). Clustering algorithms, John Wiley & Sons, Inc, New York.
  9. Holmes, G., Donkin, A. and Witten, I. (1994). WEKA: A machine learning workbench. Proceedings of the Second Australia and New Zealand Conference on Intelligent Information Systems, 357-361.
  10. Kang, H. G., Kim, K. K., Kang, C. W., Choi, S. B. and Cho, S. K. (2003). Applied study on data mining technique in insurance CRM. The Journal of Korean Data Analysis Society, 5, 101-112.
  11. Kim, K. K. (2003). A study on classi cation methods in data mining. The Journal of Korean Data Analysis Society, 5, 101-112.
  12. MaxQueen, J. (1967). Some methods for classi cation and analysis of multivariate observations. Proceedings of Berkeley Symposium on Mathematical Statistics and Probability, 281-297.
  13. Park, H. C. and Cho, K. W. (2005a). Waste database analysis joined with local information using association rules. The Journal of Korean Data Analysis Society, 7, 763-772.
  14. Park, H. C. and Cho, K. W. (2005b). Social indicator survey data analysis using decision tree. The Journal of Korean Data Analysis Society, 7, 773-783.
  15. Quinlan, J. (1992). C4.5: Programs for machine learning, Morgan Kaufmann, San Francisco.