DOI QR코드

DOI QR Code

Investigation of image preprocessing and face covering influences on motion recognition by a 2D human pose estimation algorithm

모션 인식을 위한 2D 자세 추정 알고리듬의 이미지 전처리 및 얼굴 가림에 대한 영향도 분석

  • Noh, Eunsol (Department of Mechanical Convergence Engineering, Kongju National University) ;
  • Yi, Sarang (Department of Mechanical Engineering, Kongju National University) ;
  • Hong, Seokmoo (Department of Mechanical & Automotive Engineering, Kongju National University)
  • 노은솔 (공주대학교 융합기계공학과) ;
  • 이사랑 (공주대학교 기계공학과) ;
  • 홍석무 (공주대학교 기계자동차공학부)
  • Received : 2020.04.08
  • Accepted : 2020.07.03
  • Published : 2020.07.31

Abstract

In manufacturing, humans are being replaced with robots, but expert skills remain difficult to convert to data, making them difficult to apply to industrial robots. One method is by visual motion recognition, but physical features may be judged differently depending on the image data. This study aimed to improve the accuracy of vision methods for estimating the posture of humans. Three OpenPose vision models were applied: MPII, COCO, and COCO+foot. To identify the effects of face-covering accessories and image preprocessing on the Convolutional Neural Network (CNN) structure, the presence/non-presence of accessories, image size, and filtering were set as the parameters affecting the identification of a human's posture. For each parameter, image data were applied to the three models, and the errors between the actual and predicted values, as well as the percentage correct keypoints (PCK), were calculated. The COCO+foot model showed the lowest sensitivity to all three parameters. A <50% (from 3024×4032 to 1512×2016 pixels) reduction in image size was considered acceptable. Emboss filtering, in combination with MPII, provided the best results (reduced error of <60 pixels).

제조 산업에서 인력은 로봇으로 대체되지만 전문 기술은 데이터 변환이 어려워 산업용 로봇에 적용이 불가능하다. 이는 비전 기반의 모션 인식 방법으로 데이터 확보가 가능하나 이미지 데이터에 따라 판단 값이 달라질 수 있다. 따라서 본 연구는 비전 방법을 사용해 사람의 자세를 추정 시 영향을 미치는 인자를 고려해 정확성 향상 방법을 찾고자 한다. 비전 방법 중 OpenPose의 3가지 모델 MPII, COCO 및 COCO + foot을 사용했으며, CNN(Convolutional Neural Networks)을 사용한 OpenPose 구조에서 얼굴 가림 및 이미지 전처리에 미치는 영향을 확인하고자 액세서리의 유무, 이미지 크기 및 필터링을 매개 변수로 설정했다. 각 매개 변수 별 이미지 데이터를 3 가지 모델에 적용해 실제 값과 예측 값 사이 거리 오차와 PCK (Percentage of correct Keypoint)로 영향도를 판단했다. 그 결과 COCO + foot 모델은 3 가지 매개 변수에 대한 민감도가 가장 낮았다. 또한 이미지 크기는 50% (원본 3024 × 4032에서 1512 × 2016로 축소) 이상 비율이 가장 적절하며, MPII 모델만 emboss 필터링을 적용할 때 거리 오차 평균이 최대 60pixel 감소되어 향상된 결과를 얻었다.

Keywords

References

  1. P. K. Kim, H. Park, J. H. Bae, J. H. Park, D. H. Lee, "Intuitive Programming of Dual-Arm Robot Tasks using Kinesthetic Teaching Method", The Journal of Institute of Control, Robotics and Systems, Vol.22, No.8 pp.656-664, 2016. DOI: https://dx.doi.org/10.5302/J.ICROS.2016.16.0102
  2. H. H. Jung, M. K. Kim, J. Lyou, "Implementation of Hybrid Motion Capture System for Behaviour Pattern Analysis of Disaster Recovery Workers", The Journal of Institute of Control, Robotics and Systems, Vol.23, No.5 pp.323-331, 2017. DOI: http://dx.doi.org/10.5302/J.ICROS.2017.17.0053
  3. J. S. Kim, H. Park, "Working Posture Analysis for Preventing Musculoskeletal Disorders using Kinect and AR Markers", Korean Journal of Computational Design and Engineering, Vol.23, No.1, pp.19-28, 2018. DOI: http://dx.doi.org/10.7315/CDE.2018.019
  4. J. J. Park, C. K. Kwon, "Study on Forearm Muscles and Electrode Placements for CNN based Korean Finger Number Gesture Recognition using sEMG Signals", Journal of the Korea Academia-Industrial cooperation Society, Vol.19, No.8, pp.260-267, 2018. DOI: http://dx.doi.org/10.5762/KAIS.2018.19.8.260
  5. M. J. Kang, "Comparison of Gradient Descent for Deep Learning", Journal of the Korea Academia-Industrial cooperation Society, Vol.21, No.2, pp.189-194, 2020. DOI: http://dx.doi.org/10.5762/KAIS.2020.21.2.189
  6. Z. Cao, T. Simon, S. E. Wei, Y. Sheikh, "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields", Proceeding of 2017 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, HI, USA, pp.7291-7299, July 2017. DOI: http://dx.doi.org/10.1109/CVPR.2017.143
  7. M. Andriluka, L. Pishchulin, P. Gehler, B. Schiele, "2D Human Pose Estimation: New Benchmark and State of the Art Analysis", Proceeding of 2014 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, OH, USA, pp.3686-3693, June 2014 DOI: http://dx.doi.org/10.1109/CVPR.2014.471
  8. Y. Yang, D. Ramanan, "Articulated human detection with flexible mixtures of parts", Journal of IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.35, No.12, pp.2878-2890, Dec. 2013. DOI: http://dx.doi.org/10.1109/TPAMI.2012.261