DOI QR코드

DOI QR Code

Analysis of unfairness of artificial intelligence-based speaker identification technology

인공지능 기반 화자 식별 기술의 불공정성 분석

  • 신나연 (성신여자대학교 미래융합기술공학과) ;
  • 이진민 (성신여자대학교 미래융합기술공학과) ;
  • 노현 (성신여자대학교 미래융합기술공학과) ;
  • 이일구 (성신여자대학교 미래융합기술공학과)
  • Received : 2022.10.31
  • Accepted : 2023.01.02
  • Published : 2023.03.31

Abstract

Digitalization due to COVID-19 has rapidly developed artificial intelligence-based voice recognition technology. However, this technology causes unfair social problems, such as race and gender discrimination if datasets are biased against some groups, and degrades the reliability and security of artificial intelligence services. In this work, we compare and analyze accuracy-based unfairness in biased data environments using VGGNet (Visual Geometry Group Network), ResNet (Residual Neural Network), and MobileNet, which are representative CNN (Convolutional Neural Network) models of artificial intelligence. Experimental results show that ResNet34 showed the highest accuracy for women and men at 91% and 89.9%in Top1-accuracy, while ResNet18 showed the slightest accuracy difference between genders at 1.8%. The difference in accuracy between genders by model causes differences in service quality and unfair results between men and women when using the service.

Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. 2020R1F1A1061107)과 2022년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원(P0008703, 2022년 산업혁신인재성장지원사업), 과학기술정보통신부 및 정보통신기획평가원의 ICT혁신인재 4.0 사업의 연구결과로 수행되었음 (IITP-2022-RS-2022-00156310).

References

  1. Mahata, A., Saini, N., Saharawat, S., & Tiwari., "Intelligent movie recommender system using machine learning," Intelligent Human Computer Interaction, Vol. 10127, pp. 94-110, 2016.
  2. Qiu, J., Wu, Q., Ding, G., Xu, Y., & Feng, S., "A survey of machine learning for big data processing," EURASIP Journal on Advances in Signal Processing, Vol. 1, No. 67, pp. 1-16, 2016.
  3. Markets and Markets, "Voice biometrics market by component, type(active and passive), application (authentication and customer verification, transaction processing), authentication process, organization size, deployment mode, vertical, and region - global forecast to 2026," https://www.marketsandmarkets.com/Market-Reports/voicebiometrics-market-104503105.html, 2021.
  4. Canbek, N. G., & Mutlu, M. E., "On the track of artificial intelligence: Learning with intelligent personal assistants," Journal of Human Sciences, Vol. 13, No. 1, pp. 592-601, 2016. https://doi.org/10.14687/ijhs.v13i1.3549
  5. 오원준, 연명흠. (2019). 스마트홈 환경에서 발생하는다중사용자 간 인터랙션 이슈 발굴 및 디자인 솔루션 제안 -제어 권한의 조절을 중심으로. Journal of Integrated Design Research, 18(3), 77-90. https://doi.org/10.21195/jidr.2019.18.3.005
  6. Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K,. & Galstyan. A., "A Survey on Bias and Fairness in Machine Learning." ACM Comput. Surv. 54, 6, Article 115 (July 2022), 35 pages. 2021.
  7. Toussaint, W., and Ding, A. Y., "Sveva fair: A framework for evaluating fairness in speaker verification," arXiv preprint, 2021.
  8. 정원섭, "인공지능 알고리즘의 편향성과 공정성," 인간. 환경.미래, No. 25, pp. 55-73. 2020.
  9. An, N. N., Thanh, N. Q., & Liu, Y., "Deep CNNs with self-attention for speaker identification," IEEE access, Vol. 7, pp. 85327-85337, 2019. https://doi.org/10.1109/ACCESS.2019.2917470
  10. Chung, J. S., Huh, J., Mun, S., Lee, M., Heo, H. S., Choe, S., ... & Han, I., "In defence of metric learning for speaker recognition," arXiv preprint, 2020.
  11. Shen, H., Yang, Y., Sun, G., Langman, R., Han, E., Droppo, J., & Stolcke, A., "Improving fairness in speaker verification via Group-adapted Fusion Network," ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7077-7081, 2022.
  12. Nagrani, A., Chung, J. S., & Zisserman, A., "VoxCeleb: a large-scale speaker identification dataset," arXiv preprint, 2017.
  13. Derpimort (2020) VGGVox https://github.com/Derpimort/VGGVox-PyTorch.
  14. Fogliato, R., Chouldechova, A., & G'Sell, M., "Fairness evaluation in presence of biased noisy labels," International Conference on Artificial Intelligence and Statistics, pp. 2325-2336, 2020