DOI QR코드

DOI QR Code

Self-supervised learning-based Korean phoneme recognition for evaluating Korean pronunciation of non-native speakers

비원어민 한국어 발음 평가를 위한 자기 지도 학습 기반 한국어 음소 인식

  • Na Geng (Department of English Linguistics, Hankuk University of Foreign Studies) ;
  • Heejung Na (Department of English Linguistics, Hankuk University of Foreign Studies) ;
  • Jieun Park (Department of English Linguistics, Hankuk University of Foreign Studies) ;
  • Jeong-Sik Park (Department of English Linguistics & Language Technology, Hankuk University of Foreign Studies)
  • 경나 (한국외국어대학교 영어학과) ;
  • 나희정 (한국외국어대학교 영어학과) ;
  • 박지은 (한국외국어대학교 영어학과) ;
  • 박정식 (한국외국어대학교 ELLT학과)
  • Received : 2025.01.24
  • Accepted : 2025.02.21
  • Published : 2025.03.31

Abstract

To evaluate the Korean pronunciation of non-native speakers, it is essential to develop models capable of recognizing Korean phonemes and detecting pronunciation errors at the phoneme level. Self-supervised learning models, such as Wav2Vec2.0 and Whisper, which were trained on large-scale speech data, have demonstrated strong performance in Korean speech recognition. However, their phoneme recognition accuracy for non-native speakers may be limited because of the lack of labeled data reflecting the unique characteristics of non-native speech. In this study, we developed a Korean phoneme recognition model tailored for non-native speakers by fine-tuning the pretrained Whisper model with Korean language education data from AIHub. This dataset includes speech samples from non-native speakers of various nationalities. In particular, to address the issue of the low phoneme label accuracy in this corpus, we proposed a method to improve label quality by incorporating news data clearly articulated by native Korean news anchors with the AIHub data. The refined dataset was then used for further fine-tuning, resulting in improved phoneme recognition performance. Experiments on Korean phoneme recognition with non-native speakers showed a significant increase in accuracy compared to models trained without the refined data.

비원어민의 한국어 발음 평가를 위해서는 음소 인식뿐만 아니라 발음 오류를 정확하게 탐지할 수 있는 모델이 필요하다. 자기 지도 학습(self-supervised learning) 기반 음성 인식에서 대량의 음성 자료를 통해 구축된 사전 학습(pre-trained) 모델은 정밀한 음성 인식을 가능하게 하는 것으로 알려져 있다. 특히 Wav2Vec2.0 및 Whisper와 같은 모델들은 여러 연구에서 우수한 한국어 음성 인식 성능을 보였으며, Whisper 모델은 특히 뛰어난 성능을 나타냈다. SUPERB 벤치마크를 통해 다양한 사전 학습 모델을 비교한 결과, 음소 인식 분야에서의 성과도 입증되었다. 그러나 비원어민 화자의 발화 특성을 반영하여 실제 발화에 정교하게 맞춘 레이블 데이터의 부족으로 비원어민의 한국어 음소 인식 성능을 높이는 데 한계가 존재한다. 따라서, 비원어민의 한국어 발음 평가 모델을 구축하기 위해서는 정확한 레이블을 갖춘 데이터의 확보가 중요하다. 본 연구에서는 사전 학습된 Whisper 모델을 활용하여 비원어민의 한국어 발음 평가를 위한 한국어 음소 인식 모델을 개발한다. AIHub에서는 아시아, 중국, 일본, 유럽, 영어권 비원어민의 한국어 교육용 음성 데이터를 대량으로 제공하고 있어 이를 모델의 미세 조정(fine-tuning)을 위한 데이터로 활용한다. 그러나, 제공된 음소 레이블의 정확도가 매우 떨어지는 문제가 있어, 한국인이 명료하게 발음한 "뉴스 대본 및 앵커 음성 데이터"를 추가로 활용하여 정확한 한국어 음소 발음을 학습시킨다. 이 두 데이터로부터 구축한 모델을 통해 비원어민 한국어 음성 데이터의 음소 레이블을 실제 발음에 맞게 수정하고, 이를 다시 미세 조정에 적용하여 비원어민 한국어 음소 인식 모델을 구축한다. 이 같은 과정을 몇 차례 단계별로 수행하여 미세 조정 모델을 지속적으로 갱신한다. 최종적으로 구축한 모델의 유효성을 평가하기 위해 비원어민의 한국어 발화 음성과 원어민의 한국어 음성을 대상으로 음소 인식 실험을 진행한 결과, 기본 모델에 비해 음소 인식 성능이 유의미하게 향상되었음을 확인하였다.

Keywords

Acknowledgement

이 논문은 한국외국어대학교 교원연구지원사업, 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2020R1A2C1013162).

References

  1. AIHub. (2022a). Korean voice data for educational Asian language users. Retrieved from https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71479
  2. AIHub. (2022b). Korean voice data from native Chinese and Japanese speakers for educational purposes. Retrieved from https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71490
  3. AIHub. (2022c). Korean speech data from native European speakers for educational purposes. Retrieved from https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71489
  4. AIHub. (2022d). Korean speech data from native English speakers for educational purposes. Retrieved from https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71469
  5. AIHub. (2022e). News script and anchor voice data. Retrieved from https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71557
  6. Baevski, A., Zhou, H., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, 12449-12460.
  7. Golowich, S. E., & Sun, D. X. (1998, October). A support vector/hidden Markov model approach to phoneme recognition. Proceedings of the ASA Statistical Computing Section (pp. 125-130). Dallas, TX.
  8. Jang, J. S., Lim, B. Y., & Kwon, H. Y. (2023). Multimodal learning model for detecting pronunciation error segments of childrens and foreigners speech data. Korean Institute of Information Scientists and Engineers, 29(8), 396-401. https://doi.org/10.5626/KTCP.2023.29.8.396
  9. Kannadaguli, P., & Bhat, V. (2015, March). A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada. Proceedings of 2015 International Conference on Signal Processing and Communication (ICSC) (pp. 425-430). Noida, India.
  10. Kim, E. (2006). A study on the diagnosis & evaluation for pronunciation errors of Korean language learners. Korean Language Education, 17(1), 71-99.
  11. Kim, E., Jeon, J. J., Seo, H., & Kim, H. (2022a). Automatic pronunciation assessment using self-supervised speech representation learning. arXiv, https://doi.org/10.48550/arXiv.2204.03863
  12. Kim, J., & Kang, P. (2021). K-wav2vec 2.0: Automatic speech recognition based on joint decoding of graphemes and syllables. arXiv, https://doi.org/10.48550/arXiv.2110.05172
  13. Kim, S. Y., Min, H., & Choi, H. W. (2022b). A strategic design and construction of a non-native voice data set of Korean speech for AI model training. Journal of Languistics Science, 100, 63-88. https://doi.org/10.21296/jls.2022.3.100.63
  14. Korzekwa, D., Lorenzo-Trueba, J., Zaporowski, S., Calamaro, S., Drugman, T., & Kostek, B. (2021, June). Mispronunciation detection in non-native (L2) English with uncertainty modeling. Proceedings of ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 8135-8139). Toronto, Canada.
  15. Leung, W. K., Liu, X., & Meng, H. (2019, May). CNN-RNN-CTC based end-to-end mispronunciation detection and diagnosis. Proceedings of ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 8132-8136). Brighton, UK.
  16. Lin, B., & Wang, L. (2023, October-November). Multi-accent pronunciation assessment based on domain adversarial training. Proceedings of 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (pp. 2424-2428). Taipei, Taiwan.
  17. Oh, C., Kim, C., & Park, K. (2023). Building robust Korean speech recognition model by fine-tuning large pretrained model. Phonetics and Speech Sciences, 15(3), 75-82. https://doi.org/10.13064/KSSS.2023.15.3.075
  18. Park, K. (2019). g2pK: g2p module for Korean [Computer program]. Retrieved from https://github.com/Kyubyong/g2pk
  19. Peng, L., Fu, K., Lin, B., Ke, D., & Zhang, J. (2021, August-September). A study on fine-tuning wav2vec2.0 model for the task of mispronunciation detection and diagnosis. Interspeech(pp. 4448-4452). Brno, Czechia.
  20. Radford, A., Kim, J. W., Xu, T., Brockman, G., Mcleavey, C., & Sutskever, I. (2023, Jul). Robust speech recognition via large-scale weak supervision. Proceedings of the 40th International Conference on Machine Learning (ICML) (pp. 28492-28518). Honolulu, HI.
  21. Ravanelli, M., Parcollet, T., & Bengio, Y. (2019, May). The pytorch-kaldi speech recognition toolkit. ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6465-6469). Brighton, UK.
  22. Ryu, H., Hong, H., Kim, S., & Chung, M. (2016, December). Automatic pronunciation assessment of Korean spoken by L2 learners using best feature set selection. Proceedings of 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Jeju, Korea.
  23. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł. and Polosukhin, I. (2017). Attention is all you need. Proceedings of 31st Conference on Neural Information Processing Systems (NIPS). CA, USA.
  24. Watanabe, S., Hori, T., Karita, S., Hayashi, T., Nishitoba, J., Unno, Y., Soplin, N. E. Y., ...Ochiai, T. (2018). ESPnet: End-to-end speech processing toolkit. arXiv. https://doi.org/10.48550/arXiv.1804.00015.
  25. Xu, Q., Baevski, A., & Auli, M. (2021). Simple and effective zero-shot cross-lingual phoneme recognition. arXiv. https://doi.org/10.48550/arXiv.2109.11680.
  26. Yang, S. H., & Chung, M. (2014). Prediction of Chinese learners' Korean pronunciation variations based on contrastive analysis. Annual Conference on Human and Language Technology (pp. 206-210).
  27. Yang, M., Hirschi, K., Looney, S. D., Kang, O., & Hansen, J. H. L. (2022). Improving mispronunciation detection with wav2vec2-based momentum pseudo-labeling for accentedness and intelligibility assessment. arXiv. https://doi.org/10.48550/arXiv.2203.15937.
  28. Zahran, A. I., Fahmy, A. A., Wassif, K. T., & Bayomi, H. (2023). Fine-tuning self-supervised learning models for end-to-end pronunciation scoring. IEEE Access, 11, 112650-112663. https://doi.org/10.1109/ACCESS.2023.3317236