DOI QR코드

DOI QR Code

Self Introduction Essay Classification Using Doc2Vec for Efficient Job Matching

Doc2Vec 모형에 기반한 자기소개서 분류 모형 구축 및 실험

  • 김영수 (경희대학교 일반대학원 경영학과) ;
  • 문현실 (경희대학교 AI경영연구센터) ;
  • 김재경 (경희대학교 경영대학)
  • Received : 2020.01.15
  • Accepted : 2020.02.10
  • Published : 2020.02.28

Abstract

Job seekers are making various efforts to find a good company and companies attempt to recruit good people. Job search activities through self-introduction essay are nowadays one of the most active processes. Companies spend time and cost to reviewing all of the numerous self-introduction essays of job seekers. Job seekers are also worried about the possibility of acceptance of their self-introduction essays by companies. This research builds a classification model and conducted an experiments to classify self-introduction essays into pass or fail using deep learning and decision tree techniques. Real world data were classified using stratified sampling to alleviate the data imbalance problem between passed self-introduction essays and failed essays. Documents were embedded using Doc2Vec method developed from existing Word2Vec, and they were classified using logistic regression analysis. The decision tree model was chosen as a benchmark model, and K-fold cross-validation was conducted for the performance evaluation. As a result of several experiments, the area under curve (AUC) value of PV-DM results better than that of other models of Doc2Vec, i.e., PV-DBOW and Concatenate. Furthmore PV-DM classifies passed essays as well as failed essays, while PV_DBOW can not classify passed essays even though it classifies well failed essays. In addition, the classification performance of the logistic regression model embedded using the PV-DM model is better than the decision tree-based classification model. The implication of the experimental results is that company can reduce the cost of recruiting good d job seekers. In addition, our suggested model can help job candidates for pre-evaluating their self-introduction essays.

Keywords

References

  1. 김나랑, 마렌드라 라마디니, "CNN과 Bidirectional LSTM을 활용한 부산시 민원 자동 분류 연구", 전산회계연구, 제17권, 제2호, 2019, 81-98.
  2. 김도우, 구명완, "Doc2Vec과 Word2Vec을 활용한 Convolutional Neural network 기반 한국어신문 기사 분류", 정보과학회논문지, 제44권, 제7호, 2017, 742-747.
  3. 김동성, "Doc2Vec 단어 임베딩 언어 모델을 활용한 텍스트 장르 구분", 언어와 정보, 제23권, 제2호, 2019, 23-43.
  4. 김영수, 이승우, "문서 분류를 위한 신경망 모델에 적합한 텍스트 전처리와 워드 임베딩의 조합", 정보과학논문지, 제45권, 제7호, 2018, 690-700.
  5. 김정수, 이석준, "취업준비생 토픽 분석을 통한 취업난 원인의 재탐색", 경영과 정보연구, 제35권, 제1호, 2016, 85-116.
  6. 박상현, 문현실, 김재경, "토픽 모델링에 기반한 온라인 상품 평점 예측을 위한 온라인 사용 후기 분석", 한국IT서비스학회지, 제16권, 제3호, 2017, 113-125. https://doi.org/10.9716/KITS.2017.16.3.113
  7. 백민지, 김남규, "Word2Vec 학습을통한의미기반해외 유사 특허 검색 방안", 한국IT서비스학회지, 제17권, 제2호, 2018, 129-142. https://doi.org/10.9716/KITS.2018.17.2.129
  8. 송혜지, 박경수, 정혜은, 송 민, "텍스트 마이닝 기법을 활용한 한국의 경제연구 동향 분석", 한국정보관리학회 학술대회논문집, 제2013권, 제8호, 2013, 47-50.
  9. 신정숙, "취업용 자기소개서 지도방안 연구", 동남어문논집, 제1권, 제40호, 2015, 83-113.
  10. 육지희, 송 민, "토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구", 정보관리학회지, 제35권, 제2호, 2018, 63-88. https://doi.org/10.3743/KOSIM.2018.35.2.063
  11. 이재성, 전승표, 유형선, "한국표준산업분류를 기준으로 한 문서의 자동 분류 모델에 관한 연구", 지능정보연구, 제24권, 제3호, 2018, 221-241. https://doi.org/10.13088/jiis.2018.24.3.221
  12. 전상홍, 문현실, 김재경, "의사결정나무에 기반한 취업지원자의 지원결과 분석", 한국IT서비스학회학술대회 논문집, 제2019권, 제2호, 2019, 240-243.
  13. 정지수, 지민규, 고명현, 김학동, 임헌영, 이유림, 김원일, "문서 유사도를 통한 관련 문서 분류 시스템 연구", 방송공학회논문지, 제24권, 제1호, 2019, 77-86. https://doi.org/10.5909/jbe.2019.24.1.77
  14. 채민성, 인관호, 김응모, "텍스트, 오피니언 마이닝을 이용한 SNS 친구 친밀도 분석 시스템", 한국정보과학회 학술발표논문집, 제39권, 제2호(C), 2012, 98-100.
  15. 천영민, "기업 인재상 분석과 직무역량 기반 채용 확산", 한국직업자격학회 동계학술대회, 제12권, 2017, 33-66.
  16. 최도한, 김갑조, 박상성, 장동식, "텍스트 마이닝 기반의 특허키워드 정량분석을 이용한 AMOLED부상기술 예측", 한국콘텐츠학회 종합학술대회논문집, 제2013권, 제5호, 2013, 365-366.
  17. Dai, A.M., C. Olah, and Q.V. Le, "Document embedding with paragraph vectors", arXiv e-prints, 1507.07998, 2015.
  18. Shmueli, G., P.C. Bruce, and N.R. Pateli, "Data Mining for Business Analytics Concepts, Techniques, and Applications In R", WILEY, 2017.
  19. Hearst, M.A., "Untangling text data mining, In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics", Association for Computational Linguistics, 1999, 3-10.
  20. Hong, J.S., N. Kim, and S. Lee, "A Methodology for Automatic Multi-Categorization of Single-Categorized Documents," Journal of Intelligence and Information Systems, Vol.20, No.3, 2014, 77-92. https://doi.org/10.13088/jiis.2014.20.3.077
  21. Mooney, R.J. and R. Bunescu, "Mining knowledge from text using information extraction", ACM SIGKDD explorations newsletter, Vol.7, No.1, 2005, 3-10. https://doi.org/10.1145/1089815.1089817
  22. Le, Q. and T. Mikolov, "Distributed representation of sentences and documents", Proceedings of the 31st International Conference on Machine Learning, PMLR, Vol.32, No.2, 2014, 1188-1196.
  23. Jiang, S., J. Lewris, M. Voltmer, and H. Wang, "Integrating rich document representations for text classification", Systems and Information Engineering Design Symposium (SIEDS) 2016 IEEE, 2016, 303-308.
  24. Sebastiani, F., "Machine learning in automated text categorization", ACM computing surveys(CSUR), Vol.34, No.1, 2002, 1-47. https://doi.org/10.1145/505282.505283
  25. Stavrianou, A., P. Andritsos, and N. Nicoloyannis, "Overview and semantic issues of text mining", SIGMOD Record, Vol.36, No.3, 2007, 23-34.
  26. Yang, Y. and X. Liu, "A Re-examination of Text Categorization Methods", Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 99), 1999, 42-49.
  27. Yang, Y., "An Evaluation of Statistical Approaches to Text Categorization", Journal of Information Retrieval, Vol.1, No.1, 1999, 67-88. https://doi.org/10.1023/A:1009982220290