语音合成学习笔记六

这一节课主要是关于风格化和个性化语音合成,难点有三个方面:

  • 风格化: 需要合成丰富且可控的语音,包括语速、停顿、重音、情感等。
  • 个性化: 要求我们利用多说话人建模技术及说话人自适应技术,在少量录音室或非录音室数据的条件下,为某一新说话人定制语音合成模型。
  • 迁移学习: 在只有一种语言的训练数据集下让说话人说另一种语言或者让说话人学习另一说话人的风格。迁移学习使我们能够利用额外的数据进行知识迁移,进而完成一些特定任务。

建模和评估比较困难、数据集标注成本高,标注人员对风格问题容易产生分歧、模型缺乏控制合成语音风格的能力。

论文选读

接下来主要分析几篇经典的论文。

带韵律控制的 Tacotron