DOI QR코드

DOI QR Code

UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안

  • 이정철 (울산대학교 컴퓨터정보통신공학부)
  • Received : 2010.04.29
  • Accepted : 2010.05.25
  • Published : 2010.07.31

Abstract

Large corpus-based concatenating Text-to-Speech (TTS) systems can generate natural synthetic speech without additional signal processing. Because the improvements in the natualness, personality, speaking style, emotions of synthetic speech need the increase of the size of speech DB, it is necessary to prune the redundant speech segments in a large speech segment DB. In this paper, we propose a new method to construct a segmental speech DB for the Korean TTS system based on a clustering algorithm to downsize the segmental speech DB. For the performance test, the synthetic speech was generated using the Korean TTS system which consists of the language processing module, prosody processing module, segment selection module, speech concatenation module, and segmental speech DB. And MOS test was executed with the a set of synthetic speech generated with 4 different segmental speech DBs. We constructed 4 different segmental speech DB by combining CM1(or CM2) tree clustering method and full DB (or reduced DB). Experimental results show that the proposed method can reduce the size of speech DB by 23% and get high MOS in the perception test. Therefore the proposed method can be applied to make a small sized TTS.

대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

Keywords

References

  1. N. Campbell and A. Black, "Prosody and the selection of source units for concatenative synthesis," in "Progress in speech synthesis", editors: J. van Santen, R. Sproat, J. Olive, and J. Hirschberg, pp.279-282, Springer Verlag, 1996.
  2. 오영환, "음성합성기술의 현황 및 과제," 대한음성학회 학술대회논문집, 1-16쪽, 2000년 3월.
  3. S. Narayanan, A. Alwan, "TEXT TO SPEECH SYNTHESIS New Paradigms and Advances," Prentice Hall, 2005.
  4. 이현창; 서정만, "문서-음성 변환 임베디드 시스템 구축에 관한 연구," 한국컴퓨터정보학회논문지, Vol. 13, No. 3, 77-83쪽, 2008년 5월.
  5. 장경애, 정민화, 김재인, 구명완, "코퍼스기반 음성합성기의 데이터베이스 감축 방안," 대한음성학회지: 말소리, 제44호, 145-156쪽, 2002년 12월.
  6. 최승호, 엄기완, 강상기, 김진영, "코퍼스 기반 음성합성기의 데이터베이스 축소 방법," 한국음향학회지, 제22권, 제 8호, 703-710쪽, 2003년 11월.
  7. P. Tsiakoulis, et al, "A Statistical Method for Database Reduction for Embedded Unit Selection Speech Synthesis," pp. 4601-4604 in Proc. ICASSP, vol. 1, pp. 680-683, Apr. 2009.
  8. S.J. Young, "Tree-Based State Tying for High Accuracy Acoustic Modeling," in Proc. ARPA Workshop on Human Language Technology, pp. 307-312, Mar. 1994.
  9. A.W. Black and P. Taylor, "Automatically clustering similar units for unit selection in speech synthesis," in Proc. Eurospeech97, vol. 2, pp. 601-604, Sep. 1997.
  10. A. Cronk and M. Macon, "Optimized stopping cirteria for tree-based unit selection in concatenative synthesis," in Proc. ICSLP, Vol. 1, pp. 680-683, Nov. 1998.
  11. R. Donovan and P. Woodland, "A hidden Markov model based trainable speech synthesizer," Computer Speech and Language, Vol. 13, Issue 3, pp. 223-241, Jul. 1999. https://doi.org/10.1006/csla.1999.0123
  12. S.J. Young, Kershaw D, Odell J, Ollason D, Valtchev V, Woodland P, "The HTK Book," Entropic Research Laboratories Inc, 1999.
  13. 여상화, "한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기," 한국컴퓨터정보학회논문지, 제14권, 제 2호, 191-199쪽, 2009년 2월.
  14. 김상훈, 오승신, 정호영, 전형배, 김정세, "공통음성 DB 구축," 한국음향학회: 02년 춘계 학술대회지, 21-24쪽, 2002년 5월.