벡터 회귀 트리를 이용한 한국어 에너지 궤적 생성

Generating Korean Energy Contours Using Vector-regression Tree

  • 이상호 (LG전자기술원 모바일 멀티미디어 연구소) ;
  • 오영환 (한국과학기술원 전자전산학과 전산학전공)
  • 발행 : 2003.05.01

초록

본 논문에서는 한국어 TTS 시스템을 위한 에너지 궤적 생성 방법에 대해 설명한다. 에너지 궤적 생성을 위해 스칼라 회귀 트리를 확장한 벡터 회귀 트리를 제안하고 구현하였다. 벡터 회귀 트리는 특징 벡터로부터 목적 벡터를 예측할 수 있으며, 본 연구에서는 각 음소당 10개의 에너지 값을 예측한다. 실험을 위해 500 문장의 문장 코퍼스와 그 문장들을 발성한 음성 코퍼스를 수집하였고, 이중 300 문장을 이용하여 트리들을 학습하고 200 문장에 대해 실험하였다. 에너지 궤적의 예측 정확률을 높이기 위해 배깅 트리 (bagged tree)와 재구축 트리 (born again tree)도 함께 구현한 결과, 원음의 에너지 궤적과 예측된 에너지 궤적간의 상관계수가 0.803으로 기존의 방법보다 더 좋은 결과를 얻을 수 있었다.

This study describes an energy contour generation method for Korean n systems. We propose a vector-regression tree, which is a vector version of a scalar regression tree. A vector-regression tree predicts a response vector for an unknown feature vector. In our study, the tree yields a vector containing ten sampled energy values for each phone. After collecting 500 sentences and its corresponding speech corpus, we trained trees on 300 sentences and tested them on 200 sentences. We construct a bagged tree and a born again one to improve the performance of contour prediction. In the experiment, we got a 0.803 correlation coefficient for the observed and predicted energy values.

키워드

참고문헌

  1. Proc. Int. Conf. Spoken Language Processing Energy contour generation for a sentence using a neural network learning method J.C.Lee;D.G.Kang;S.H.Kim;K.M.Sung
  2. Porc. Int. Conf. Spoken Language Processing Unsupervised training of phone duration and energy models for text-to-speech synthesis P.C.Bagshaw
  3. IEEE Trans. Speech Audio Processing v.7 A dynamical system model for generating fundamental frequency for speech synthesis K.Ross;M.Ostendorf https://doi.org/10.1109/89.759037
  4. IEEE Trans. Pattern Anal. Machine Intell. v.13 Optimal partitioning for classification and regression trees P.A.Chou https://doi.org/10.1109/34.88569
  5. Classification and Regression Trees ser. Wadsworth Statistics/Probability Series L.Breiman;J.H.Friedman;R.A.Olshen;C.J.Stone
  6. Machine Learning v.24 Bagging Predictors L.Breiman
  7. Born Again Trees L.Breiman;N.Shang
  8. Out-of-Bag Estimation L.Breiman
  9. 한국음향학회지 v.19 no.2 한국어 억양의 트리 기반 모델링 이상호;오영환