Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data

RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로

  • Received : 2017.11.23
  • Accepted : 2017.12.26
  • Published : 2017.12.31

Abstract

In 2014, Seoul Metropolitan Government launched a response service aimed at responding promptly to civil complaints. The complaints received are categorized based on their content and sent to the department in charge. If this part can be automated, the time and labor costs will be reduced. In this study, we collected 17,700 cases of complaints for 7 years from June 1, 2010 to May 31, 2017. We compared the XGBoost with RandomForest and confirmed the suitability of Korean text classification. As a result, the accuracy of XGBoost compared to RandomForest is generally high. The accuracy of RandomForest was unstable after upsampling and downsampling using the same sample, while XGBoost showed stable overall accuracy.

2014년 서울시는 시민의 목소리에 신속한 응대를 목표로 '서울특별시 응답소' 서비스를 시작하였다. 접수된 민원은 내용을 바탕으로 카테고리 확인 및 담당부서로 분류 되는데, 이 부분을 자동화시킬 수 있다면 시간 및 인력 비용이 감소될 것이다. 본 연구는 2010년 6월 1일부터 2017년 5월 31일까지 7년치 민원 사례 17,700건의 데이터를 수집하여, 최근 화두가 되고 있는 XGBoost 모델을 기존 RandomForest 모델과 비교하여 한국어 텍스트 분류의 적합성을 확인하였다. 그 결과 RandomForest에 대비 XGBoost의 정확도가 전반적으로 높게 나타났다. 동일한 표본을 활용하여 업 샘플링과 다운 샘플링 시행 후에는 RandomForest의 정확도가 불안정하게 나타난 반면, XGBoost는 전반적으로 안정적인 정확도를 보였다.

Keywords

References

  1. 강승식, "형태소 분석 결과의 인코딩 기법과 어절 사전 구축", 한국정보과학회 언어공학연구회 학술발표논문집, 제16권, 제1호, pp.112-117, 2004.
  2. 김성표, 박훈진, 나영우, 최병길, "공간 빅데이터를 활용한 환경민원 분석에 관한 연구", 한국측량학회, 제15권, 제2호, pp.333-334, 2015.
  3. 김수아, 조희선, 이현아, "다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류", Journal of the Korean Society of Marine Engineering, 제39권, 제1호, pp.58-62, 2015. https://doi.org/10.5916/jkosme.2015.39.1.58
  4. 손남례, 김서영, "공공민원 빅데이터 분석을 통한 민원통계 및 담당부서 자동분류 시스템, 한국차세대컴퓨팅학회, 제13권, 제1호, pp.22-35, 2017.
  5. 송효진, 황성수, "정부 3.0 추진에 따른 공공데이터 개방과 지방정부의 방향성 모색: 공공데이터법에 관한 이해와 개방 사례를 중심으로", 한국지역정보학회지, 제17권, 제2호, pp.1-28, 2014.
  6. 원태홍, 유환희, "진주시 전자민원 추이분석", 한국지형공간정보학회 춘계학술대회논문집, pp.106-109, 2016.
  7. 유진은, "랜덤 포레스트: 의사결정나무의 대안 으로서의 데이터 마이닝 기법", Journal of Educational Evaluation, 제28권, 제2호, pp.427-448, 2015.
  8. 조응래, 지우석, 홍명기, 최서윤, "경기도 교통불편 민원의 효율적인 처리방안", 정책연구, pp. 1-76, 2016.
  9. 최해옥, "환경.위생분야 민원분석을 통한 정책우선순위 결정에 관한 연구", 환경정책, 제24권, 제2호. pp.45-57, 2016.
  10. Amor, N.B., S. Benferhat, and Z. Elouedi, "Naive Bayes vs Decision Trees in Intrusion Detection Systems", ACM Symposium on Applied Computing, pp.420-424, 2004.
  11. Breiman, L. and A. Cutler, "Random Forests", https://www.stat.berkeley.edu/-breiman/RandomForests, 2014.
  12. Breiman, L., "Random Forests", Machine Learning, Vol.45, pp.5-32, 2001. https://doi.org/10.1023/A:1010933404324
  13. Bylander, T., "Estimation Generalization Error on Two-Class Datasets Using Out-of-Bag Estimates", Machine Learning, Vol.48, pp.287-297, 2002. https://doi.org/10.1023/A:1013964023376
  14. Chen, T. and C. Guestrin, "XGBoost: A Scalable Tree Boosting System", KDD'16, pp.785-794, 2016.
  15. Chen, T. and C. Guestrin, "XGBoost: Reliable Large-sclae Tree Boosting System", 2017.
  16. Chen, W., X. Li, Y. Wang, G. Chen, and S. Liu, "Forested Landslide Detection using LiDAR data and the Random Forest Algorithm: A Case Study of the Three Gorges, China", Remote Sensing of Environment, Vol.152, pp.291-301, 2014. https://doi.org/10.1016/j.rse.2014.07.004
  17. Fragos, K., P. Belsis, and C. Skourlas, "Combining Probabilistic Classifiers for Text Classification", Procedia-Social and Behavioral Sciences, Vol.147, pp.307-312, 3rd International Conference on Integrated Information (IC-ININFO), doi:10.1016/j.sbspro.2014.07.098, 2014.
  18. Friedman, J.H., "Greedy Function Approximation: A Gradient Boosting Machine", The Annals of Statistics, Vol.29, pp.1189-1232, 2001.
  19. Hebert, J., "Predicting Rare Failure Event using Classification Trees on Large Scale Manufacturing Data with Complex Interactions", IEEE International Conference on Big Data, pp.2024-2028, 2016.
  20. Holzer, M. and A. P. Manoharan et al., "서울시 전자정부 우수사례 연구보고서", Rutgers University School of Public Affairs and Administration, 2016.
  21. https://xgboost.readthedocs.io "XGBoost 공식 홈페이지".
  22. Kibinge, N., S, Ikeda, N. Ono, M. Altaf-Ul-Amin, and S. Kanaya, "Integration of Residue Attributes for Sequence Diversity Characterization of Terpenoid Enzymes", BioMed Research International, Vol.2014, pp.1-10, 2014.
  23. K-ICT 빅데이터센터, NIADic tutorial, 2017.
  24. Kohavi, R., "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection", Appears in the Internationa l Joint Conference on Artificial Intelligence, 1995.
  25. Pal, M., "Random Forest Classifier for Remote Sensing Classification", International Journal of Remote Sensing, Vol.26, No.1, p.217, 2005. https://doi.org/10.1080/01431160412331269698
  26. Refaeilzadeh, P., L. Tang, et al., "Cross-Validation", Encyclopedia of Database Systems, pp.532-538, 2009.
  27. Rodriguez-Galiano, V.F., M. Chica-Olmo, F. Abarca-Hernandez, P.M., Atkinson, and C. Jeganathan, "Random Forest Classification of Mediterranean Land Cover using Multi-seasonal Imagery and Multi-seasonal Texture", Remote Sensing of Environment, Vol.121, pp.93-107, 2012. https://doi.org/10.1016/j.rse.2011.12.003
  28. Siroky, D.S., "Navigating Random Forests and related advances in algorithmic modeling", Statistics Surveys, Vol.3, pp.147-163, 2009. https://doi.org/10.1214/07-SS033
  29. Tang, B., H. He, P.M. Baggenstoss, and S. Kay, "A Bayesian Classification Approach Using Class-Specific Features for Text Categorization", IEEE Transactions on Knowledge and Data Engineering, Vol.28, No.6, pp.1602-1606, 2016. https://doi.org/10.1109/TKDE.2016.2522427
  30. Zhang, X., J. Zhao, and Y. LeCun, "Character-level convolutional networks for text classification", in Advances in neural information processing systems, pp.649-657, 2015.