대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석

Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition

  • 박영희 (서강대학교 컴퓨터학과 음성언어처리연구실) ;
  • 정민화 (서강대학교 컴퓨터학과 음성언어처리연구실)
  • 발행 : 2002.04.01

초록

대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.

Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.

키워드

참고문헌

  1. 제9회 한글 및 한국어 정보처리 학술발표 논문집 개념 및 구문정보를 이용한 한국어 대화체 분석 시스템 왕지현;서영훈
  2. 한국음향학회 하계학술대회논문집 한국어 낭독체 인식의 발성 잡음처리를 위한 Human Garbage 모델링 이경님;정민화
  3. 제13회 음성통신 및 신호처리 워크샵 v.13 no.1 한국어 대화체 인식 시스템의 구현 이항섭;박준;권오욱
  4. Proc. of International Conference on Acoustics, Speech, and Signal v.1 Statistical language modeling for speech disfluencies A. Stolcke;E. Shriberg
  5. Proc. of NIST Speech Transcription Workshop The SRI march 2000 HUB-5 conversational speech transcription system A. Stolcke;H. Bratt;J. Butzberger;H. Franco;V.R. Rao Graoble;M. Plauche;C. Richey;E. Shriberg;K. Sonmez;F. Weng;J. Zheng
  6. Proc. of International Conference on Acoustics, Speeech, and Signal v.1 Pronunciation modeling using a Hand-labelled corpus for conversational speech recognition B. Byrne;M. Finke;S. Khudanpur;J. McDounugh;H. Nock;M. Riley;M. Saraclar;C. Wooters;G. Zavaliagkos
  7. Ph. D. thesis Preliminaries to a Theory of Speech Disfluencies E. Shriberg
  8. Proc. of Inter-national Conference on Spoken Language Processing v.3 Disfluencies in switchboard E. Shriberg
  9. Proc. of International Conference on Spoken Language Processing v.3 Word Predictability after hesitations;A corpus-based study E. Shriberg;A. Stolcke
  10. Proc. of International Conference on Acoustics, Speech, and Signal SWITCHBOARD;Telephone speech corpus for research and development J.J. Godfrey;E.C. Holliman;J. McDaniel
  11. HTK Hidden Markov Model Tookit, Version 2.2
  12. Proc. of International Conference on Spoken Language Processing v.1 Modeling disfluencies in conversational speech M.H. Siu;M. Ostendorf
  13. Proc. of EUROSPEECH v.5 Speaking mode dependent pronunciation modeling in large vocabulary conversational speech recognition M. Finke;A. Waibel
  14. Proc. of Inter-national Conference on Spoken Language Processing v.3 Effect of speaking style on LVCSR performance M. Weintraub;K. Taussing;K.H.;A. Snodgrass
  15. JHU Summer Workshop Error analysis and disfluencies modeling in the Switchboard domain R. Rosenfeld;R. Agarwal;R. lyer;L Shriberg;D. Vergyri