A Study on Recognition Units for Korean Speech Recognition

한국어 분절음 인식을 위한 인식 단위에 대한 연구

  • ;
  • ;
  • Michael W. Macon (CSLU, OGI, U.S.A.)
  • 황영수 (관동대학교 전자정보공학과) ;
  • 송민석 (관동대학교 영어영문과) ;
  • Published : 2000.08.01

Abstract

In the case of making large vocabulary speech recognition system, it is better to use the segment than the syllable or the word as the recognition mit. In this paper, we study on the proper recognition units for Korean speech recognition. For experiments, we use the speech toolkit of OGI in U.S.A. The result shows that the recognition rate of the case in which the diphthong is established as a single unit is superior to that of the case in which the diphthong is established as two units, i.e. a glide plus a vowel. And also, the recognition rate of the case in which the biphone is used as the recognition unit is better than that of the case in which the mono-phoneme is used.

본 연구는 한국어 분절음 인식을 위한 인식단위 설정에 대한 연구이다. 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식단위 설정과 현대어 발음에 기초한 인식단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였다. 또한 인식단위의 설정에 있어서 독려된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(biphone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다. 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다.

Keywords

References

  1. IEEE Trans. Acoust., Speech, Signal Processing v.ASSP-27 Two-Level DP matching-dynamic programming based pattern matching algorithm for connected word recognition H. Sakoe
  2. IEEE Trans. on Com v.COM-28 An algorithm for vector quantizer design Y. Linde;A. Buzo;R. M. Gray
  3. IEEE ASSP Mag. An Introduction to Hidden Markov Models L. R. Rabiner;B. H. Juang
  4. Adaptive Pattern Recognition and Neural Networks Y. H. Pao
  5. IEEE Trans. Inf. Theory v.IT-13 Error Bounds for Conventional Codes and an Asymptotically Optimal Decoding Algorithm A. J. Viterbi
  6. CSLU in OGI CSLU-HMM: The CSLU Hidden Markov Modeling Environment J. Schalkwyk;P. Hosom;Kaiser(ed.);K. Shobaki(ed.)
  7. CSLU in OGI Training Neural Network for Speech Recognition J. P. Hosom;R. Cole;M. Party;J. Schalkwyk;Y. Yan;W. Wei
  8. 한국음향학회 하계학술대회 한국어 음성 인식을 위한 Biphone 구성을 위한 기초 연구 황영수;송민석