DOI QR코드

DOI QR Code

A Study on the traffic flow prediction through Catboost algorithm

Catboost 알고리즘을 통한 교통흐름 예측에 관한 연구

  • Cheon, Min Jong (Division of Information System, Hanyang University) ;
  • Choi, Hye Jin (Division of Information System, Hanyang University) ;
  • Park, Ji Woong (Division of Information System, Hanyang University) ;
  • Choi, HaYoung (Division of Information System, Hanyang University) ;
  • Lee, Dong Hee (Division of Information System, Hanyang University) ;
  • Lee, Ook (Division of Information System, Hanyang University)
  • 전민종 (한양대학교 정보시스템학과) ;
  • 최혜진 (한양대학교 정보시스템학과) ;
  • 박지웅 (한양대학교 정보시스템학과) ;
  • 최하영 (한양대학교 정보시스템학과) ;
  • 이동희 (한양대학교 정보시스템학과) ;
  • 이욱 (한양대학교 정보시스템학과)
  • Received : 2020.12.02
  • Accepted : 2021.03.05
  • Published : 2021.03.31

Abstract

As the number of registered vehicles increases, traffic congestion will worsen worse, which may act as an inhibitory factor for urban social and economic development. Through accurate traffic flow prediction, various AI techniques have been used to prevent traffic congestion. This paper uses the data from a VDS (Vehicle Detection System) as input variables. This study predicted traffic flow in five levels (free flow, somewhat delayed, delayed, somewhat congested, and congested), rather than predicting traffic flow in two levels (free flow and congested). The Catboost model, which is a machine-learning algorithm, was used in this study. This model predicts traffic flow in five levels and compares and analyzes the accuracy of the prediction with other algorithms. In addition, the preprocessed model that went through RandomizedSerachCv and One-Hot Encoding was compared with the naive one. As a result, the Catboost model without any hyper-parameter showed the highest accuracy of 93%. Overall, the Catboost model analyzes and predicts a large number of categorical traffic data better than any other machine learning and deep learning models, and the initial set parameters are optimized for Catboost.

자동차 등록대수와 비례하여 증가하는 교통 혼잡은 도시의 사회경제 발전의 저해 요소로 작용하고 있다. 본 논문은 VDS(Vehicle Detection System)을 통한 데이터를 입력 변수로 사용한다. 본 연구의 목적은 교통 흐름을 단순히 2단계(원할, 정체)가 아닌 5단계(원할, 다소 지체, 지체, 다소 정체, 정체)로 더 정교하게 예측하고, 이 예측에서 가장 정확도가 높은 모델인 Catboost 모델과 다른 모델들을 비교하는 것이다. 이를 위해 본 논문에서는 머신러닝 알고리즘인 Catboost 모델을 통해 5가지 단계를 예측하고 정확도를 다른 머신러닝 알고리즘들과 비교, 분석한다. 또한, 하이퍼 파라미터(Hyper Parameter) 튜닝 및 원-핫 인코딩(One-Hot Encoding) 전처리를 거치지 않은 Catboost 모델과 랜덤 선택(RandomizedSearchcv)을 통해 튜닝 및 데이터 전처리를 거친 모델을 비교, 분석한다. 분석 결과 하이퍼 파라미터 튜닝을 하지 않은 초기 Catboost 모델이 정확도 93%를 보이며 가장 높은 정확도를 기록하였다. 따라서 본 연구는 두가지 의의를 가진다. 첫번째로, 초기 세팅된 파라미터들이 적용된 Catboost 모델이 다수의 범주형 변수를 포함하는 교통 흐름 예측에서 다른 머신러닝, 딥러닝 모델들보다 성능이 높다는 결론을 도출했다는 점에서 의의가 있다. 두번째로, 기존 2단계로 예측하던 교통 흐름을 5단계로 예측함으로써 더욱 정교한 교통 흐름 예측 모델을 제안한다는 점에서 의의를 가진다.

Keywords

References

  1. A Reum Oh, "The number of cars registered exceeded 23.44 million...One per 2.2 persons", Auto Times, Available From : http://autotimes.hankyung.com/apps/news?mode=sub_view&popup=0&nid=03&c1=03&c2=02&c3=&nkey=20 1907151405391 (accessed November, 14, 2020)
  2. H. G. Kim, C. Y. Park, C. S. Shin, "Time Series Analysis for Traffic Flow Using Dynamic Linear Model", KIPS Transactions on Computer and Communication Systems, Vol. 6, No. 4, pp. 179-188, 2017. DOI: https://doi.org/10.3745/KTCCS.2017.6.4.179
  3. H. S. Yi, K. H. N. Bui, C. N. Seon, "A Deep Learning LSTM Framework for Urban Traffic Flow and Fine Dust Prediction", Journal of KIISE, Vol 47, No. 3, pp. 292-297, 2020. https://doi.org/10.5626/jok.2020.47.3.292
  4. L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, A. Gulin, "CatBoost: unbiased boosting with categorical features", Advanced in Neural Information Processing Systems 31, pp. 6639-6649, 2018.
  5. J. H. Cho, K. H. N. Bui, H. Yi, "An Automated Hyperparameter Search-based Deep LSTM Network for Urban Traffic Congestion Prediction", Proceedings of The Korean Institute of Information Scientists and Engineers, pp. 724-726, 2019.
  6. H. S. Yi, H. J. Jeong, B. Y. Ryu, "Traffic Flow Prediction Using Deep Learning Neural Networks", Proceedings of The Korean Institute of Information Scientists and Engineers, pp. 558-560, 2016.
  7. K. H. Kim, B. H. Chang, H. K. Choi, "Deep Learning Based Short-Term Electric Load Forecasting Models using One-Hot Encoding", Journal of IKEEE, Vol. 23, No. 3, , pp. 852-857, 2019. DOI: https://doi.org/10.7471/ikeee.2019.23.3.852
  8. J. Bergstra, Y. Bengio, "Randomized Search for Hyper-Parameter Optimization", Journal of Machine Learning Research, Vol. 13, pp. 281-305, 2012.
  9. D. H. Shin, K. H. Choi, C. B. Kim, "Deep Learning Model for Prediction Rate Improvement of Stock Price Using RNN and LSTM", The Journal of Korean Institue of Information Technology, Vol. 15, No. 10, pp. 9-16, 2017. DOI: http://dx.doi.org/10.14801/jkiit.2017.15.10.9
  10. A. L. Lee, A Study on Author Profiling of Web-based Korean Web Text of Elementary and Middle School Students using Word2Vec and Bi-LSTM for Binary Classification, Master's thesis, Ewha Womans University, pp. 15-16, 2020.