DOI QR코드

DOI QR Code

빅데이터 기반 2형 당뇨 예측 알고리즘 개발

Development of Type 2 Prediction Prediction Based on Big Data

  • 심현 (순천대학교 ) ;
  • 김현욱 (순천대학교 미래산업인재양성사업단, 디지털트윈연구소)
  • 투고 : 2023.08.27
  • 심사 : 2023.10.17
  • 발행 : 2023.10.31

초록

당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

Early prediction of chronic diseases such as diabetes is an important issue, and improving the accuracy of diabetes prediction is especially important. Various machine learning and deep learning-based methodologies are being introduced for diabetes prediction, but these technologies require large amounts of data for better performance than other methodologies, and the learning cost is high due to complex data models. In this study, we aim to verify the claim that DNN using the pima dataset and k-fold cross-validation reduces the efficiency of diabetes diagnosis models. Machine learning classification methods such as decision trees, SVM, random forests, logistic regression, KNN, and various ensemble techniques were used to determine which algorithm produces the best prediction results. After training and testing all classification models, the proposed system provided the best results on XGBoost classifier with ADASYN method, with accuracy of 81%, F1 coefficient of 0.81, and AUC of 0.84. Additionally, a domain adaptation method was implemented to demonstrate the versatility of the proposed system. An explainable AI approach using the LIME and SHAP frameworks was implemented to understand how the model predicts the final outcome.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 지역지능화혁신인재양성(Grand ICT연구센터) 사업의 연구결과로 수행되었음 (IITP-2023-2020-0-01489)

참고문헌

  1. World Health Organization Diabetes: Keys Facts. https://www.who.int/news-room/fact-sheets/detail/diabetes, 2022 
  2. Moustafa, Z., Evolutions de l'Intelligence Artificielle: Quels enjeux pour l'activite humaine et la relation Humain-Machine au travail? Activites , pp. 1-39, 2020 
  3. Machine Learning. Java T Point; https://www.javatpoint.com 
  4. Pankajray, Convolutional Neural Network (CNN) and Its Application-All You Need to Know, 2021. 
  5. Islam, I.A. and Milon, M.I., Diabetes Prediction: A Deep Learning Approach, International Journal of Information Engineering and Electronic Business , 11, pp.21-27, 2019  https://doi.org/10.5815/ijieeb.2019.02.03
  6. Zhou, H., Myrzashova, R. and Zheng, R. Diabetes Prediction Model Based on an Enhanced Deep Neural Network. EURASIP Journal on Wireless Communications and Networking, Article No. 148, 2020 
  7. Naz, H. and Ahuja, S, Deep Learning Approach for Diabetes Prediction Using PIMA Indian Dataset. Journal of Diabetes & Metabolic Disorders , 19, pp.391-403, 2020  https://doi.org/10.1007/s40200-020-00520-5
  8. Swapna, G., Soman, K.P. and Vinayakumar, R, Automated Detection of Diabetes Using CNN and CNN-LSTM Network and heart Rate Signals. Procedia, 2018 
  9. Chowdary, P.B.K. and Kumar, R.U, An Effective Approach for Detecting Diabetes Using Deep Learning Techniques Based on Convolutional LSTM Networks. International Journal of Advanced Computer Science and Applications, 12, pp.519-525, 2021.  https://doi.org/10.14569/IJACSA.2021.0120466
  10. Mat Jizat, J.A., Abdul Majeed, A.P.P., Ahmad, A.F., Taha, Z. and Yuen, E, Evaluation of the Machine Learning Classifier in Wafer Defects Classification. ICT Express, 7, pp.535-539. 2021.  https://doi.org/10.1016/j.icte.2021.04.007
  11. Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., Johannes, R.S.: Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In: Annual Symposium on Computer Applications in Medical Care, pp.261-265, 1998.