DOI QR코드

DOI QR Code

A Classification Model for Customs Clearance Inspection Results of Imported Aquatic Products Using Machine Learning Techniques

머신러닝 기법을 활용한 수입 수산물 통관검사결과 분류 모델

  • Received : 2023.06.01
  • Accepted : 2023.06.21
  • Published : 2023.06.30

Abstract

Seafood is a major source of protein in many countries and its consumption is increasing. In Korea, consumption of seafood is increasing, but self-sufficiency rate is decreasing, and the importance of safety management is increasing as the amount of imported seafood increases. There are hundreds of species of aquatic products imported into Korea from over 110 countries, and there is a limit to relying only on the experience of inspectors for safety management of imported aquatic products. Based on the data, a model that can predict the customs inspection results of imported aquatic products is developed, and a machine learning classification model that determines the non-conformity of aquatic products when an import declaration is submitted is created. As a result of customs inspection of imported marine products, the nonconformity rate is less than 1%, which is very low imbalanced data. Therefore, a sampling method that can complement these characteristics was comparatively studied, and a preprocessing method that can interpret the classification result was applied. Among various machine learning-based classification models, Random Forest and XGBoost showed good performance. The model that predicts both compliance and non-conformance well as a result of the clearance inspection is the basic random forest model to which ADASYN and one-hot encoding are applied, and has an accuracy of 99.88%, precision of 99.87%, recall of 99.89%, and AUC of 99.88%. XGBoost is the most stable model with all indicators exceeding 90% regardless of oversampling and encoding type.

수산물은 많은 국가의 주요한 단백질 공급원이며 소비가 증가하고 있다. 우리나라도 수산물 소비는 증가하는 반면 자급률은 낮아지고 있으며, 수산물의 수입량이 증가함에 따라 안전관리의 중요성이 높아지고 있다. 국내로 수입되는 수산물은 110여 개 국가로부터 수백 종에 이르며, 수입 수산물의 안전관리를 검사관의 경험에만 의존하는 것은 한계가 있다. 데이터를 기반으로 수입 수산물 통관검사 결과를 예측할 수 있는 모델을 개발하여 수입신고서가 제출되었을 때 수산물의 부적합 가능성을 판단하는 머신러닝 분류 모델을 생성한다. 수입수산물 통관검사 결과 부적합율은 1% 미만으로 매우 낮은 불균형 데이터이므로 이러한 특성을 보완할 수 있는 샘플링 방법을 비교 연구하였고, 분류결과를 해석할 수 있는 전처리 방법을 적용하였다. 여러 가지 머신러닝 기반의 분류모델 중에서 랜덤포레스트와 XGBoost가 좋은 성능을 보였다. 통관검사 결과 적합과 부적합을 모두 잘 예측하는 모델은 ADASYN과 원-핫 인코딩을 적용한 랜덤포레스트 기본 모델이며 정확도 99.88%, 정밀도 99.87%, 재현율 99.89%, AUC 99.88%이다. XGBoost는 오버샘플링과 인코딩 종류에 상관없이 모든 지표가 90%를 넘겨 가장 안정적인 모델이다.

Keywords

Acknowledgement

본 연구는 2023년도 식품의약품안전처의 연구개발비(21163MFDS517-1)로 수행되었으며, 이에 감사드립니다. 그리고, 2023학년도 충북대학교 석사학위논문(저자 엄지성)의 내용을 바탕으로 재구성하였습니다.

References

  1. e-나라지표 수산물 소비량(연간 1인당)과 자급률 https://www.index.go.kr/unity/potal/main/EachDtlPageDetail.do?idx_cd=1317 
  2. 식약처 수입식품정보마루, https://impfood.mfds.go.kr/ 
  3. 조상구 and 최경현. (2018). 수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구. 한국빅데이터학회 학회지, 3(2), 19-33. 
  4. A Hassoun., R Karoui(2017), "Quality evaluation of fish and other seafood by traditional and nondestructive instrumental methods: Advantages and limitations," Critical Reviews in Food Science and Nutrition, 57(9), 1976-1998. 
  5. Vandermeersch, G., Lourenco, H. M., Alvarez-Munoz, D., Cunha, S., Diogene, J., Cano-Sancho, G., Robbens, J(2015), "Environmental contaminants of emerging concern in seafood-European database on contaminant levels," Environmental Research, 143, 29-45.  https://doi.org/10.1016/j.envres.2015.06.011
  6. Kumar, V., Kumar, S(2021), "ANN-Based Integrated Risk Ranking Approach: A Case Study of Contaminants of Emerging Concern of Fish and Seafood in Europe," International Journal of Environmental Research and Public Health, 18(4), 1598. 
  7. Rokach, L(2010), "Ensemble-based classifiers," Artificial intelligence review, 33(1), 1-39.  https://doi.org/10.1007/s10462-009-9124-7
  8. Sagi, O., Rokach, L(2018), "Ensemble learning: A survey," Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4), e1249. 
  9. Breiman, L(1996), "Bagging predictors," Machine learning, 24(2), 123-140.  https://doi.org/10.1007/BF00058655
  10. Gomez-Rios, A., Luengo, J., Herrera, F(2017), "A study on the noise label influence in boosting algorithms: AdaBoost, GBM and XGBoost," In International Conference on Hybrid Artificial Intelligence Systems, 268-280.