코퍼스 기반 음성합성기의 데이터베이스 축소 방법

Pruning Methodology for Reducing the Size of Speech DB for Corpus-based TTS Systems

  • 발행 : 2003.11.01

초록

코퍼스 기반 음성합성방식은 그 합성음의 자연성이 매우 우수하여 널리 사용되고 있으나 대용량의 데이터베이스 (DB)를 사용하기 때문에 그 적용분야가 매우 제한적이다. 본 연구에서는 이러한 코퍼스 기반 음성합성기의 대용량 DB 문제를 해결하기 위한 방안으로서 DB 축소 방법 대한 알고리듬을 제안하고 평가하였다. 본 논문에서는 DB 축소 알고리듬으로서 세 가지 방법을 제안하였는데, 첫 번째는 Modified K-means 군집화를 이용한 DB 축소 알고리듬이고 다음은 적절한 문장 셋을 정의하고 이 문장 셋을 합성할 때 사용된 단위들을 이용하는 방법이다. 마지막으로는 대용량 문장 셋을 정의하고 해당 문장을 음성합성하고, 음편들의 사용 빈도수를 고려하여 군집화를 하는 것이다. 세 가지 방법을 이용하여 합성 DB를 유사한 크기로 축소하였을 때, 대용량 문장 셋과 빈도를 고려한 세 번째 방법이 가장 우수한 음질을 보였다. 또한 마지막 방법은 합성음의 음질은 저하시키지 않으면서 합성 DB만을 감소시키는 성능을 보여, 제안된 방법의 타당함을 입증할 수 있었다.

Because of their human-like synthesized speech quality, recently Corpus-Based Text-To-Speech(CB-TTS) have been actively studied worldwide. However, due to their large size speech database (DB), their application is very restricted. In this paper we propose and evaluate three DB reduction algorithms to which are designed to solve the above drawback. The first method is based on a K-means clustering approach, which selects k-representatives among multiple instances. The second method is keeping only those unit instances that are selected during synthesis, using a domain-restricted text as input to the synthesizer. The third method is a kind of hybrid approach of the above two methods and is using a large text as input in the system. After synthesizing the given sentences, the used unit instances and their occurrence information is extracted. As next step a modified K-means clustering is applied, which takes into account also the occurrence information of the selected unit instances, Finally we compare three pruning methods by evaluating the synthesized speech quality for the similar DB reduction rate, Based on perceptual listening tests, we concluded that the last method shows the best performance among three algorithms. More than this, the results show that the last method is able to reduce DB size without speech quality looses.

키워드

참고문헌

  1. 박상언, '코퍼스 기반 한국어 음성합성 시스템의 합성음 자연성 향상', 전남대학교 대학원 석사학위논문, 2001
  2. A. W. Black and P. Taylor 'Automatically clustering similar units for unit selection in speech synthesis.' Proc. EUROSPEECH 97, 2, 601-604, Rhodes, Greece, 1997
  3. N. Campbell and A. Black, 'Prosody and the selection of source units for concatenative synthesis,' in J. van Santen, R. Sproat, J. Olive, and J. Hirschberg, editors, Progress in Speech Synthesis, 279-282, Springer Verlag, 1996
  4. A. Conkie and S, Isard, 'Optimal coupling of diphones,' in J. van Santen, R. Sproat, J. Olive, and J. Hirschberg, editors, Progress in Speech Synthesis, 293-305, Springer Verlag, 1996
  5. A. Hunt and A. Black, 'Unit selection in a concatenative speech synthesis system using a large speech database.' ICASSP 96, 1, 373-376, Atlanta, 1996
  6. S. Nakajima, and H. Hamada, 'Automatic generation of synthesis units based on context oriented clustering.' Proceedings of ICASSP 88, 659-662, 1988
  7. A. Black and N. Campbell, 'Optimal selection of units from speech databases for concatenative synthesis,' EUROSPEECH 95, 1, 581-584, Madrid, Spain. 1995
  8. 이호영, 국어 음성학, 태학사, 1996