반음소 모델링을 이용한 거절기능에 대한 연구

A Study on the Rejection Capability Based on Anti-phone Modeling

  • 김우성 (한국통신 멀티미디어연구소 음성언어연구실) ;
  • 구명완 (한국통신 멀티미디어연구소 음성언어연구실)
  • 발행 : 1999.04.01

초록

본 논문에서는 독립단어 음성인식 시스템을 위하여 반음소(anti-phone) 모델링을 이용한 인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 ? 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 음성인식 거절기능을 구하는 방식은 핵심어 검출(keyword spotting)방식과 발화검증(utterance verification)방식으로 구분된다. 핵심어 검출 방식은 인식 대상 단어 외의 단어를 별도로 모델링하여 하나의 인식대상 단어처럼 사용하는 방식이고, 발화검증 방식은 각 음소마다 그와 유사한 anti-model을 작성한 후 정상적인 음소 모델과 anti-model과의 유사도를 비교하여 결정하는 방식이다. 본 연구에서는 독립단어 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 그리고 유사음소집합(cohort set)에 대한 실험에서는 유사음소집합의 크기가 클수록 더 좋은 성능을 보이는 결과를 얻었다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.

This paper presents the study on the rejection capability based on anti-phone modeling for vocabulary independent speech recognition system. The rejection system detects and rejects out-of-vocabulary words which were not included in candidate words which are defined while the speech recognizer is made. The rejection system can be classified into two categories by their implementation methods, keyword spotting method and utterance verification method. The keyword spotting method uses an extra filler model as a candidate word as well as keyword models. The utterance verification method uses the anti-models for each phoneme for the calculation of confidence score after it has constructed the anti-models for all phonemes. We implemented an utterance verification algorithm which can be used for vocabulary independent speech recognizer. We also compared three kinds of means for the calculation of confidence score, and found out that the geometric mean had shown the best result. For the normalization of confidence score, usually Sigmoid function is used. On using it, we compared the effect of the weight constant for Sigmoid function and determined the optimal value. And we compared the effects of the size of cohort set, the results showed that the larger set gave the better results. And finally we found out optimal confidence score threshold value. In case of using the threshold value, the overall recognition rate including rejection errors was about 76%. This results are going to be adapted for stock information system based on speech recognizer which is currently provided as an experimental service by Korea Telecom.

키워드

참고문헌

  1. Computer Speech and Language v.9 no.9 Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition R. C. Rose
  2. IEEE Trans. on Speech and Audio Processing v.4 no.6 Vocabulary independent discriminative utterance verification for non-keyword in subword based speech recognition R. A. Sukkar;C.-H. Lee
  3. Proc. of ICASSP'95 Rpbust utterance verification for connected digits recognition M. Rahim(et al.)
  4. Proc. of ICASSP'95 LVCSR log-likelihood ratio scoring for keyword spotting M. Weintraub
  5. Proc. of EUROSPEECH'95 A vocabulary independent discriminatively trained method for rejection of non-keywords in subword based speech recognition R. Sukkar(et al.)
  6. 제 13회 음성통신 및 신호처리 워크샵 v.13 no.1 신경망을 이용한 음성인식 거절기능 구현 구명완
  7. Proc. on IEEE Workshop on Speech Recognition and Understanding A study on subword modeling for utterance verification in Mexican Spanish Carmen Garcia-Mateo;C.-H. Lee
  8. Proc. on IEEE Workshop on Speech Recognition and Understanding A new hybrid decoding algorithm for speech recognition and utterance verification M. W. Koo;C.-H. Lee;B. H. Juang
  9. Proc. IEEE-ICASSP Efficient decoding and training procedures for utterance verification in continuous speech recognition E. Lleida;R. C. Rose
  10. Proc. of ICSLP'96 Likelihood ratio decoding and confidence measures for continuous speech recognition E. Lleida;R. C. Rose
  11. Proc. on IEEE-ICASSP Acoustic modeling of subword units for speech recognition C.-H. Lee(et al.)