我的视角 - 我们的事

发表于 2021-04-12 | 分类于生活

大约十年前，我看了一本叫<秘密>的书(这本书还在我的书柜里躺着)，书里的核心思想之一是如果你真的真的很想要某样东西，只要你的心愿够强烈，每天都在内心祈祷，这个心愿就会成真。那个时候，大家都以成绩作为衡量一个人能力的标准。不过，我并没有把成绩当作我的心愿，毕竟我一贯奉行公平原则，不可以用<秘密>里的黑魔法(总不见得让我成天不写作业就在心里祷告默念成绩会变好吧！)。我有我的大心愿。

阅读全文 »

语音合成学习笔记六

发表于 2020-12-04 | 分类于公开课

这一节课主要是关于风格化和个性化语音合成，难点有三个方面:

风格化: 需要合成丰富且可控的语音，包括语速、停顿、重音、情感等。
个性化: 要求我们利用多说话人建模技术及说话人自适应技术，在少量录音室或非录音室数据的条件下，为某一新说话人定制语音合成模型。
迁移学习: 在只有一种语言的训练数据集下让说话人说另一种语言或者让说话人学习另一说话人的风格。迁移学习使我们能够利用额外的数据进行知识迁移，进而完成一些特定任务。

阅读全文 »

梦回长安

发表于 2020-11-01 | 分类于旅行

终于来拔草肉夹馍啦！这次是应了小邓的要求来陪她看某古寺的千年银杏树(似乎在小红书上很火)，不过她在我来的这一天得了荨麻疹又飞回了上海，照她的话来说是飞了个寂寞。

阅读全文 »

语音合成学习笔记三

发表于 2020-10-25 | 分类于公开课

这章是我听的不太懂的一章，所以需要后面逐步找资料完善。先把大概懂的搬上来。

阅读全文 »

语音合成学习笔记二

发表于 2020-10-03 | 分类于公开课

这节主要是关于 TTS 中的前端部分，主要是抽取文本信息特征，目前基于端到端的神经网络系统还不能直接以文本作为输入，因为会有一些潜在的问题，所以还是要针对文本进行分析后作为神经网络的输入；除此之外，部分 TTS 的问题也可以通过修改前端的一些规则得到改善。

阅读全文 »

语音合成学习笔记一

发表于 2020-09-26 | 分类于公开课

之前也有学习过一些深度生成模型原理，终于决定学习一下语音合成，所以报名了深蓝学院的语音合成课程，主讲是谢磊老师，是语音圈的大佬了。考虑到课程的 PPT 涉及到版权问题，所以我决定只记录学习笔记和一些 READING LIST。另外，谢磊老师推荐了爱丁堡大学今年开放的公开课 Speech Synthesis，希望后面也能跟一下这门课。

阅读全文 »