语音合成学习笔记三

这章是我听的不太懂的一章,所以需要后面逐步找资料完善。先把大概懂的搬上来。

目前非端到端的语音合成算法有两种,1)参数语音合成方法,其中声学模型包括基于隐马尔可夫(HMM)的统计参数语音合成和基于神经网络(NN)的统计参数语音合成,而声码器包括基于源-滤波器的声码器和基于NN的声码器 2) 单元拼接语音合成方法 简单地理解是有一个很大的语音库包含了许多词/音素的发音,用一些方法将各个单元拼接起来。

在开始介绍具体的方法之前,先介绍一下文本特征和声学特征。

声学特征

传统声学模型这里的声学特征主要包括 MGC-梅尔生成倒谱, MCEP-梅尔倒谱, LSP-线谱对,这些普参数加上激励参数如基频F0,就是需要拟合的声学特征。而我们的音频通常都是一个个的采样点,谱参数+激励参数是可以还原到音频采样点的。

常用的工具:Straight, World, SPTK, HTS, Pysptk

基于HMM的统计参数语音合成

HMM 应用到 TTS 这里和 ASR 还是有些区别的。主要参考的论文是 An Introduction to HMM-Based Speech Synthesis:

基于 NN 的参数语音合成

基于 NN 的参数语音合成主要依赖时长模型和声学模型。