DOI QR코드

DOI QR Code

Visualization of Korean Speech Based on the Distance of Acoustic Features

음성특징의 거리에 기반한 한국어 발음의 시각화

  • Pok, Gou-Chol (Division of Computer and IT Instruction, PaiChai University)
  • Received : 2020.05.29
  • Accepted : 2020.06.11
  • Published : 2020.06.30

Abstract

Korean language has the characteristics that the pronunciation of phoneme units such as vowels and consonants are fixed and the pronunciation associated with a notation does not change, so that foreign learners can approach rather easily Korean language. However, when one pronounces words, phrases, or sentences, the pronunciation changes in a manner of a wide variation and complexity at the boundaries of syllables, and the association of notation and pronunciation does not hold any more. Consequently, it is very difficult for foreign learners to study Korean standard pronunciations. Despite these difficulties, it is believed that systematic analysis of pronunciation errors for Korean words is possible according to the advantageous observations that the relationship between Korean notations and pronunciations can be described as a set of firm rules without exceptions unlike other languages including English. In this paper, we propose a visualization framework which shows the differences between standard pronunciations and erratic ones as quantitative measures on the computer screen. Previous researches only show color representation and 3D graphics of speech properties, or an animated view of changing shapes of lips and mouth cavity. Moreover, the features used in the analysis are only point data such as the average of a speech range. In this study, we propose a method which can directly use the time-series data instead of using summary or distorted data. This was realized by using the deep learning-based technique which combines Self-organizing map, variational autoencoder model, and Markov model, and we achieved a superior performance enhancement compared to the method using the point-based data.

한국어는 자음과 모음과 같은 음소 단위의 발음은 고정되어 있고 표기에 대응하는 발음은 변하지 않기 때문에 외국인 학습자가 쉽게 접근할 수 있다. 그러나 단어와 어구, 문장을 말할 때는 음절과 음절의 경계에서 소리의 변동이 다양하고 복잡하며 표기와 발음이 일치하지 않기 때문에 외국어로서의 한국어 표준 발음 학습은 어려운 면이 있다. 그러나 영어 같은 다른 언어와 달리 한국어의 표기와 발음의 관계는 논리적인 원리에 따라 예외 없이 규칙화 할 수 있는 장점이 있으므로 발음오류에 대해 체계적인 분석이 가능한 것으로 여겨진다. 본 연구에서는 오류 발음과 표준 발음의 차이를 컴퓨터 화면상의 상대적 거리로 표현하여 시각화하는 모델을 제시한다. 기존 연구에서는 발음의 특징을 단지 컬러 또는 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있으며 추출하는 음성의 특징도 구간의 평균과 같은 점 데이터를 이용하는데 그치고 있다. 본 연구에서는 시계열로 표현되는 음성데이터의 특성 및 구조를 요약하거나 변형하지 않고 직접 이용하는 방법을 제시한다. 이를 위해서 딥러닝 기법을 토대로 자기조직화 알고리즘과 variational autoencoder(VAE) 모델 및 마코브 확률모델을 결합한 확률적 SOM-VAE 기법을 사용하여 클러스터링 성능을 향상시켰다.

Keywords

References

  1. J. Beskow, O. Engwall, B. Granstrom, P. Nordqvist, and P. Wik, "Visualization of Speech and Audio for Hearing Impaired Persons," Technology and Disability, vol 20, pp. 97-107, 2008. https://doi.org/10.3233/TAD-2008-20205
  2. A. Watanabe, S. Tomishige, and M. Nakatake "Speech Visualization by Integrating Features for the Hearing Impaired", IEEE Trans. Speech Audio Proc., vol 8, no 4, pp. 454-466, 2000. https://doi.org/10.1109/89.848226
  3. Y. Ueda, T. Sakada, and A. Watanabe, "Real-time Speech Visualization System for Speech Training and Diagnosis," Audio Engineering Society Convention Paper 8184, 2010 November 4, San Fransico, USA.
  4. D. S. Kim, T. H. Lee, and D. M. Lee, "An ambient display for hearing impaired people," Proc. Human Computer Interface Korea (HCI2006), pp.46-51, 2006.
  5. D. Silva, "Variation in Voice Onset Time for Korean Stops: A Case for Recent Sound Change", Korean Linguistics, vol. 13, 2006.
  6. J. Y. Bae, "Acoustic Characteristics of Korean Stop Sounds According to Phonetic Environment: Focusing on Features on the Time Line", Phonectics and Speech Sciences, vol. 5.2, pp.139-159, 1999.
  7. S. H. Kim, "A Study on Korean Affricates Produced by Vietnamese Speakers", vol. 59, pp. 145-168, Korean Linguistics, 2013.
  8. Y. Dissen, J. Goldberg, and J. Keshet, "Formant Estimation and Tracking: A Deep Learning Approach", J. Acoustic Society, vol.145, no.2, pp.1-11, 2019 https://doi.org/10.1121/1.5084264
  9. V. Fortuin, M. Huser, F. Locatello, H. Stratman, and G. Ratsch, "Deep Self-Organization: Interpretable Discreate Representation Learning on Time Series", arXiv:1806.02199, 2018.
  10. H. S. Shin, "Phonological Information in Korean Language", Prunsasang, 2016.
  11. D. Davies and D. Bouldin. "A Cluster Separation Measure". IEEE Trans on Pattern Analysis and Machine Intelligence. vol.2, pp.224-227, 1979.
  12. P. J. Rousseeuw, "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. vol. 20, pp.53-65, 1987. https://doi.org/10.1016/0377-0427(87)90125-7