Fast Speech Recognition System using Classification of Energy Labeling

에너지 라벨링 그룹화를 이용한 고속 음성인식시스템

  • 한수영 (안양대학교 컴퓨터학과) ;
  • 김홍렬 (동서울대학 컴퓨터정보과) ;
  • 이기희 (동서울대학 컴퓨터정보과)
  • Published : 2004.12.01

Abstract

In this paper, the Classification of Energy Labeling has been proposed. Energy parameters of input signal which are extracted from each phoneme are labelled. And groups of labelling according to detected energies of input signals are detected. Next. DTW processes in a selected group of labeling. This leads to DTW processing faster than a previous algorithm. In this Method, because an accurate detection of parameters is necessary on the assumption in steps of a detection of speeching duration and a detection of energy parameters, variable windows which are decided by pitch period are used. A pitch period is detected firstly : next window scale is decided between 200 frames and 300 frames. The proposed method makes it possible to cancel an influence of windows and reduces the computational complexity by $25\%$.

본 논문에서는 입력된 음성의 음소단위로 추출된 에너지 파라미터를 이용하여 에너지를 라벨링(energy labeling)하고 라벨링된 값에 따라 입력 음성을 그룹화하였다. 그리고 동적패턴정합 수행 시 입력된 실험음성에서 검출된 에너지의 크기에 따라 선택된 라벨의 그룹 내에서 DTW를 수행시켜 처리시간을 단축시켜 저가형 프로세서에서도 고속으로 동작할 수 있게 하고자 하였다. 본 논문의 음성 라벨링 단계는 음성의 구간 검출 및 에너지 파라미터의 추출 단계에서 정확한 파라미터의 검출을 전제로 하기 때문에 이를 보완하기 위해 피치의 주기에 따른 가변윈도우를 사용하였다. 피치주기를 먼저 구하고 그 주기에 200 프레임에서 300프레임 사이에서 윈도우의 크기를 결정함으로써 윈도우의 영향이 제거된 에너지를 구하는 방법을 제안하였다. 실험결과 제안된 방법이 약 $25\%$ 정도의 연산량을 감소시켰다.

Keywords