最近大火的扩散模型经典开山作介绍与必备数学推导(一)
来源:投稿 作者:橡皮
编辑:学姐

会议:NeurlPS 2020
贡献
出了使用扩散概率模型的高质量图像合成结果,这是一类受非平衡热力学启发的潜在变量模型。
最佳结果是通过在加权变异约束上的训练获得的,该约束是根据扩散概率模型与朗文动力学的去噪分数匹配之间的新联系而设计的,模型自然地接受了渐进式有损解压方案,可以解释为自回归解码的一般化。
在无条件的CIFAR10数据集上,获得了9.46的Inception分数和3.17的最先进的FID分数。在256x256的LSUN上,得到的样本质量与ProgressiveGAN相似。
1引言
最近,各种深度生成模型在各种数据模式中都表现出了高质量样本的性能。生成对抗网络(GANs)、自回归模型、流和变分自动编码器(VAEs)已经合成了引人注目的图像和音频样本,而且基于能量的建模和分数匹配也有显著的进步,产生了与GANs相媲美的图像。

本文介绍了扩散概率模型的进展。扩散概率模型是一个参数化的马尔可夫链,使用变分推理训练,在有限时间后产生与数据匹配的样本。这条链的转换被学习为逆转扩散过程,这是一个马尔科夫链,在采样的相反方向逐渐向数据添加噪声,直到信号被破坏。当扩散由少量的高斯噪声组成时,将采样链的转换也设置为条件高斯就足够了,这样就可以实现特别简单的神经网络参数化。

扩散模型的定义很简单,训练也很高效,但据作者所知,还没有人证明它们能够产生高质量的样本。作者的工作表明,扩散模型实际上能够产生高质量的样本,有时比其他类型的生成模型的公布结果更好。此外,作者表明,扩散模型的某种参数化揭示了与训练期间多个噪声水平的去噪分数匹配和采样期间的退火Langevin动力学的等同性。作者使用这个参数化获得了样本质量结果的SOTA,所以这个是主要贡献之一。
尽管样本质量很高,但与其他基于似然的模型相比,本文的模型没有竞争性的对数似然(不过,本文的模型的对数似然比退火重要性抽样在基于能量的模型和分数匹配中产生的大估计值要好)。作者发现,模型大部分无损编码长度被消耗在描述不可感知的图像细节上。作者用有损压缩的语言对这一现象进行了更精细的分析,并表明扩散模型的采样程序是一种渐进式解码,它类似于沿着比特排序的自回归解码,极大地概括了自回归模型通常可以做到的。

2背景


3扩散模型和去噪自动编码器
扩散模型可能看起来是一类受限制的潜变量模型,但它们在实施中允许有大量的自由度。我们必须选择正向过程的方差βt以及反向过程的模型结构和高斯分布参数化。为了指导我们的选择,我们在扩散模型和去噪分数匹配之间建立了一个新的明确联系(第3.2节),这导致了扩散模型的简化、加权变异约束目标(第3.4节)。最终,我们的模型设计被简单性和经验结果所证明(第4节)。我们的讨论按公式(5)的条款进行分类。
3.1前向过程和
我们忽略了前向过程方差βt是可以通过重新参数化来学习的,而是将其固定为常数(详见第4节)。因此,在我们的实现中,近似后验q没有可学习的参数,所以LT在训练期间是一个常数,可以被忽略。
3.2反向过程和
现在我们讨论我们的选择,在1 < t ≤ T时,

首先,我们设定

到未经训练的时间相关常数。实验中,

和

都有相同的结果。第一个选择对于

来说是最优的,第二个选择对于x0确定性地设置为一点来说是最优的。这是两个极端的选择,对应于具有坐标上单位方差的数据的反向过程熵的上界和下界。
其次,为了表示平均数

我们提出了一个具体的参数化,其动机是对Lt的以下分析:
将

写作:

因此,我们看到μθ最直接的参数化是一个预测˜μt的模型,即前向过程后验平均值。
然而,我们可以通过重新参数化公式(4)来进一步扩展公式(8)为:

并应用前向过程后验公式(7):

方程(10)显示,µθ必须预测

根据xt。由于xt可以作为模型的输入,我们可以选择参数化:

其中,θ是一个函数近似器,旨在从xt预测作为数据密度的学习梯度。此外,通过参数化(11),公式(10)简化为:

这类似于以t为索引的多个噪声尺度上的去噪分数匹配。由于公式(12)等于类似Langevin的反向过程(11)的变分约束(其中一项),我们看到,优化类似去噪分数匹配的目标等同于使用变分推理来适应类似Langevin动力学的采样链的有限时间边际。
「总的来说:」
我们可以训练反向过程平均函数近似器来预测
,或通过修改其参数化,我们可以训练它来预测
(也有预测x0的可能性,但我们发现这在实验的早期会导致更差的样本质量)。
我们已经表明,预测参数化既类似于Langevin动力学,又将扩散模型的变异约束简化为类似于去噪分数匹配的目标。尽管如此,它只是

的另一个参数化。
因此,我们在第4节中验证了它在消融中的有效性,在这里我们比较了预测和预测˜µt的效果。

3.3数据缩放,反向过程解码器,以及L0
我们假设图像数据是由{0, 1, . . . , 255}中的整数,线性缩放为[-1, 1]。这确保了神经网络反向过程从标准正态先验p(xT)开始,对一致缩放的输入进行操作。为了获得离散的对数似然,我们将反向过程的最后一项设置为一个独立的离散解码器,该解码器由高斯


其中D是数据维度,i的上标表示提取一个坐标。(直接将一个更强大的解码器如条件自回归模型纳入其中,但我们将此留给未来的工作)。
与VAE解码器和自回归模型中使用的离散连续分布相似,我们在这里的选择确保了变异约束是离散数据的无损编码长度,不需要在数据中加入噪声或将缩放操作的雅各布系数纳入对数似然。在采样结束时,我们无噪音地显示μθ(x1, 1)。
3.4简化训练目标
有了上面定义的反向过程和解码器,由公式(12)和(13)得出的条款组成的变异约束,显然是可以相对于θ进行微分的,并准备用于训练。然而,我们发现在以下变异约束的基础上进行训练,有利于提高样本质量(而且实施起来更简单):

其中t在1和T之间是均匀的。t = 1的情况对应于L0,离散解码器定义(13)中的积分由高斯概率密度函数乘以bin宽度近似,忽略了σ21和边缘效应。t>1的情况对应于公式(12)的非加权版本,类似于NCSN去噪分数匹配模型所使用的损失加权。(LT没有出现,因为前向过程的方差βt是固定的。) 算法1显示了这个简化目标的完整训练过程。
由于我们的简化目标(14)放弃了公式(12)中的加权,它是一个加权的变异约束,与标准的变异约束相比,强调了重建的不同方面。特别是,我们在第4节中的扩散过程设置导致简化目标降低了与小t相对应的损失项的权重。这些项训练网络对具有非常小量噪声的数据进行去噪,因此降低权重是有益的,这样网络就可以在较大的t项中专注于更困难的去噪任务。在我们的实验中,我们将看到这种重新加权导致更好的样本质量。

4实验
我们为所有的实验设置了T=1000,这样在采样过程中所需要的神经网络评估的数量与以前的工作相匹配。我们将前向过程的变数设定为从β1=10-4到βT=0.02的线性增加的常数。这些常数被选择为相对于标度为[-1, 1]的数据而言的小常数,确保反向和正向过程具有大致相同的函数形式,同时保持xT处的信噪比尽可能的小。
为了表示反向过程,我们使用了一个类似于未屏蔽的PixelCNN++的U-Net主干,并在整个过程中进行分组归一化。参数是跨时间共享的,这是用Transformer正弦波位置嵌入向网络指定的。我们在16×16的特征图分辨率下使用自我注意。详情见附录B。
4.1样例质量:
表1显示了CIFAR10上的Inception分数、FID分数和负对数似然(无损编码长度)。我们的FID分数为3.17,我们的无条件模型比文献中的大多数模型(包括类条件模型)取得了更好的样本质量。我们的FID得分是相对于训练集计算的,这是标准做法;当我们相对于测试集计算时,得分是5.24,这仍然比文献中的许多训练集FID得分要好。



关注【学姐带你玩AI】公众号
回复“扩散模型”获取论文原文+代码数据集
