关于NaturalSpeech模型的论文解读以及复现尝试(序)
NaturalSpeech是微微软亚洲研究院和微软 Azure 语音团队推出的关于文本生成语音 Text to speech (TTS)的AI合成语音模型。据说在 CMOS 测试中首次达到了真人说话水准。

这篇文章是UP尝试复现论文是所记录的笔记,希望能够帮助其他对TTS感兴趣的同学,如果有错误或不足之处。希望能有大佬在评论区指正。闲话就不往下说了,开始读论文。
跳过论文中的介绍和其他的一些无关内容。重点在于模型图

看似简单,实际上相当复杂。将它与VITS比较,可以看出,两者都用了条件变分自编码器(Variational AutoEncoder,VAE),将高维语音 x 压缩为帧级表示 z/ q(z|x))。

图2:vits 系统概览
VAE之后,NaturalSpeech接了一个双向的先验/后验的flow(没错它也用了flow),所以除了一些细节上的不同,NaturalSpeech和Vits的框架大差不差,都是VAE+Flow+GAN的模式,而VITS是开源的,这就降低了复现NaturalSpeech的难度。