Discriminative Feature Selection for G.723-based Speech Recognition

G.723기반의 음성인식을 위한 변별적인 음성 특징 벡터 선정

  • Published : 2000.04.01

Abstract

정보 통신 분야의 발달로 사람들의 전화 사용이 늘어나고 또한 전화기에 여러 가지 멀티미디어 기능들이 추가되면서 음성 인식의 필요성이 점차 증가하고 있다. 그러나 현재의 기술로는 음성 인식의 성능이 사람들의 기대치를 만족시키지 못하고 있다. 본 연구에서는 G.723을 이용한 네트워크 상에서 음성 인식 시간을 줄이고 같은 차수에서 더 좋은 음성 인식 성능을 얻을 수 있는 방법에 대해 연구하였다. 일반적인 보코더는 채널을 통과시킬 때 왜곡을 최소화 하기 위해 양지화할 때 안정적이라고 알려져 있는 LSP 파라메터를 양자화하여 전송한다. 전송된 양자화된 LSP 파라메터는 복호화기를 통과하게 되는데 본 연구에서는 양자화된 LSP 파라메터를 음성인식에 직접 이용하여 음성 합성한 후 음성 특징 파라메터를 추출하는 시간을 줄일 수 있고 음성 합성시 왜곡을 미연에 방지할 수 있다. 본 연구에서는 변별적인 기준에 의해 특징 벡터 요소들을 순서화를 이용하여 음성 특징 벡터의 차수를 동적으로 조절할 수 있는 방법을 G.723에 적용시켜 보았다. 순서화 된 음성 특징 요소들 중에서 인식 목적에 적절한 차수를 선정하며 차수를 줄이면서도 음성인식 성능은 유지 또는 향상시킬 수 있음을 확인하였다. 특히 네트워크 통신망에서도 음성인식 성능을 향상시킬 수 있음을 확인하였고, 기존의 합성음에서 음성인식을 하는 방법보다 시간도 크게 단축할 수 있었다.

Keywords