DOI QR코드

DOI QR Code

A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형

Ha, Manseok;Ahn, Hyunchul
하만석;안현철

  • Received : 2018.10.24
  • Accepted : 2018.11.21
  • Published : 2019.01.28

Abstract

One of the biggest difficulties in the vocational training field is the dropout problem. A large number of students drop out during the training process, which hampers the waste of the state budget and the improvement of the youth employment rate. Previous studies have mainly analyzed the cause of dropouts. The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of learners. In particular, this study aimed to improve the accuracy of the prediction model by taking into consideration not only structured data but also unstructured data. Analysis of unstructured data was performed using Word2vec and Convolutional Neural Network(CNN), which are the most popular text analysis technologies. We could find that application of the proposed model to the actual data of a domestic vocational training institute improved the prediction accuracy by up to 20%. In addition, the support vector machine-based prediction model using both structured and unstructured data showed high prediction accuracy of the latter half of 90%.

Keywords

Vocational Training;Dropout;Machine Learning;Convolutional Neural Network;Word2vec

References

  1. 아시아경제 뉴스, http://www.asiae.co.kr/news/view.htm?idxno=2 018082113382462570
  2. 김승수, 비정형정보와 CNN기법을 활용한 고객행태예측: 전자상거래 사례를 중심으로, 한양대학교 경영학과, 박사학위논문, 2018.
  3. 직업교육훈련 촉진법 제2조 제1호, http://www.law.go.kr/lsInfoP.do?urlMode=lsInfoP&lsId=000864#0000
  4. 배경석, 직업교육훈련에 참여한 성인학습자의 중도탈락 요인 분석, 한국기술교육대학교 대학원, 석사학위논문, 2004
  5. 고용노동부, 직업능력개발사업현황, 2017.
  6. 권근배, 직업전문학교 수료자와 중도탈락자의 특성 비교연구 - 직업훈련 청소년의 중도탈락예방 프로그램 개발을 위한 기초연구, 성균관대학교 행정대학원, 석사학위논문, 2001.
  7. 권혜진, "개인, 교육기관, 사회적 변인이 사이버대 재학생의 중도탈락의도 결정에 미치는 영향," 한국콘텐츠학회논문지, 제10권, 제3호, pp.404-412, 2010.
  8. 김경희, "지방대학생들의 학업중단 영향요인과 대학생활만족도 분석," 한국콘텐츠학회논문지, 제11권, 제8호, pp.378-387, 2011.
  9. 박대권, 실업자직업훈련의 중도탈락 원인 분석, 연세대학교 대학원, 박사학위논문, 1999.
  10. 이준택, 직업학교장면에서 중도탈락에 영향을 미치는 요인 탐색, 호서대학교 대학원, 석사학위논문, 2004.
  11. 정선정, 직업교육 이러닝 e-Learning의 중도탈락 원인 분석, 이화여자대학교 정보과학대학원, 석사학위논문, 2005.
  12. M. L. Conte, F. M. Rottino, and L. Salvati, "Dropping out from a Training Course after the High School in Italy," Proceedings of SIS2007, pp.503-504, 2007.
  13. H. Yi, L. Zhang, Y. Yao, A. Wang, Y. Ma, Y. Shi, J. Chu, P. Loyalka, and S. Rozelle, "Exploring the dropout rates and causes of dropout in upper-secondary technical and vocational education and training (TVET) schools in China," International Journal of Educational Development, Vol.42, pp.115-123, 2015. https://doi.org/10.1016/j.ijedudev.2015.04.009
  14. 구본용, 신현숙, 유제민, "데이터마이닝을 이용한 중퇴 모형에 관한 연구," 청소년상담연구, 제10권, 제2호, pp.35-57, 2002.
  15. 구본용, 유제민, "중퇴에 관한 위험 및 보호요인의 신경망 모형," 한국심리학회지, 제8권, 제1호, pp.133-146, 2003.
  16. 전주성, "사이버 대학의 잠재적 중도탈락자 예측에 관한 연구," Andragogy Today, 제13권, 제1호, pp.121-139, 2010.
  17. 정소영, 권수태, "연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발," 한국정보기술학회논문지, 제6권, 제5호, pp.202-210, 2018.
  18. 유지원, "일반대학에서 교양 e-러닝 강좌의 중도탈락 예측모형 개발과 조기 판별 가능성 탐색," 한국컴퓨터교육학회 논문지, 제17권, 제1호, 2014.
  19. 노혜란, 최미나, "대학 이러닝에서 학습자의 참여지속에 관한 로지스틱 회귀분석, 교육정보미디어연구," 제17권, 제4호, pp.593-614, 2011.
  20. B. S. Acharya and S. Neupane, "Determinants of vocational training drop out: A Logit Model Analysis," Annamalai International Journal Of Business Studies & Research, Vol.4, No.1, pp.75-80, 2012.
  21. H. Baars and H. G. Kemper, "Management Support with Structured and Unstructured Data-an Integrated Business Intelligence Framework," Information Systems Management, Vol.25, No.2, pp.132-148, 2008. https://doi.org/10.1080/10580530801941058
  22. 조성우, Big Data 시대의 기술, KT 종합기술원, pp.5-7, 2011.
  23. Y. Li and L. Xu, "Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective," In Proceedings of the 24th International Joint Conference on Artificial Intelligence, 2015.
  24. P. D. Turney and P. Pantel, "From frequency to meaning: Vector space models of semantics," Journal of Artificial Intelligence Research, Vol.37, pp.141-188, 2010. https://doi.org/10.1613/jair.2934
  25. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," In Proceedings of Workshop at ICLR, pp.1-12, 2013.
  26. J. Firth, A Synopsis of Linguistic Theory, 1930-1955, Studies in Linguistic Analysis, pp.1-32, 1957.
  27. 김우주, 김동희, 장희원, "Word2vec을 활용한 문서의 의미 확장 검색방법," 한국콘텐츠학회논문지, 제16권, 제10호, pp.687-692, 2016.
  28. 박성수, 이건창, "워드 임베딩과 반감독 학습을 사용한 효율적 한국어 감성 표지 생성 방안," 한국지능시스템학회 논문지, 제28권, 제2호, pp.185-191, 2018.
  29. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," In International Conference on Neural Information Processing Systems (NIPS'13), pp.3111-3119, 2013.
  30. http://operatingsystems.tistory.com/entry/Data-Mining-Word2vec-CBOW
  31. Q. Le and T. Mikolov, "Distributed representations of sentences and documents," In International Conference on Machine Learning, pp.1188-1196, 2014.
  32. 유용민, Doc2vec과 문서 군집기법을 적용한 카테고리 자동생성, 인하대학교 공학대학원, 석사학위논문, 2018.
  33. 이모세, 안현철, "효과적인 입력변수 패턴 학습을 위한 시계열 그래프 기반 합성곱 신경망 모형:주식시장 예측에의 응용," 지능정보연구, 제24권, 제1호, pp.167-181, 2018.
  34. Y. Kim, "Convolutional neural networks for sentence classification," arXiv preprint arXiv:1408.5882, 2014.
  35. A. Krizhevsky, I. Sutskever, and G. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," International Conference on Neural Information Processing Systems (NIPS'12), pp.1097-1105, 2012.
  36. 한정수, 컨벌루션 신경회로망과 ELM 분류기를 이용한 영상 분류, 조선대학교 대학원, 석사학위논문, 2017.
  37. https://github.com/kkb2849/Word2vec-kor/blob/master/dict_data/w2v_model_wiki_kor
  38. 안현철, "유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용," Information Systems Review, 제16권, 제3호, pp.161-177, 2014. https://doi.org/10.14329/isr.2014.16.3.161
  39. 이종식, 안현철, "입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구," 지능정보연구, 제23권, 제4호, pp.147-168, 2017.

Acknowledgement

Supported by : 한국연구재단