AIGC: Non-Gaussian Denoising Diffusion Models 笔记
DDPM
众所周知,DDPM 是一个基于马尔可夫链 (这个联合概率分布之前笔记里面也出现过,
的意思是
),在原图像上逐渐添加高斯噪声
的模型(每一步的
需要足够小)。
所以,.

高斯混合分布
高斯混合分布(Gaussian Mixture),就像它的名字所说,是多个高斯分布混合在一起。
显然,我们的加噪过程中,添加的噪声未必要是高斯分布,所以在这里,论文里面讨论了噪声高斯混合分布的情况(而高斯分布则变成了高斯混合分布的一个特例)。这里我们依旧以 代表高斯噪声,而高斯混合分布情况下,加噪过程有
这里,论文特别讨论了当 时的情况,即:
这里我们令 (即公式里面的噪音部分,去掉
), 并且我们希望这个噪音具有一些"高斯"特性,即
.
我们知道,针对高斯分布有 ,以及,针对伯努利分布有
.
所以,三个待定系数 和
,我们根据
,可以有如下的等式:
额,上面的公式不是特别重要。
现在我们可以让 作为一个自由参数,
来代表一个由两个高斯分布——均值如上,方差均为
,且权重相同
——所组成的高斯混合模型。
,且
,那么我们有:
这里,论文认为,类似于 DDPM,逆向过程也可以取类似的形式:
(这里,)
有关上面这个式子,论文没有给出任何证明。原 DDPM 的逆向过程是从贝叶斯定理 推导出来的。这里我因为懒和菜没有去尝试推导,就假定论文里面的是对的了。
接下来就简单了,我们利用一个神经网络去模拟噪音 , 其余的和 DDPM 的步骤一样。
Denoising Diffusion Gamma Models
不用多说,Denoising Diffusion Gamma Models(2110.05948)是噪音服从 Gamma 分布时候的情况,即:
其中,.
是两个超参数(Hyperparameters)。
显然这里有, 所以
;并且,
是一个常数,所以
.
Gamma 分布的概率密度函数为 ,
被称作 shape,
被称作 scale.
如果多个独立的随机变量 服从 Gamma 分布
,即,这些 Gamma 分布含有相同的 scale
和不同的 shape
, 相加后的随机变量服从 Gamma 分布
. 这个性质可以用来推导出从
到
的公式:
推导上述公式,论文里面用的是数学归纳法(假定 成立,推得
成立),由于不是特别重要,所以不搬过来了,见论文附录。
和上面高斯混合分布不同,这里论文给出了详细的反向过程推导,方法依旧是贝叶斯定理 ,这里三个概率分布都服从 Gamma 分布。由于公式过于复杂,我没仔细看,所以选择略过。
从推导出来的 可以计算变分下界的 loss
,这里有关的计算流程过于复杂,大概一半左右都没看懂,等着哪天哪个大神出来解释。
总之,最终的结论是,最小化 即等同于最小化的 loss
.

所以为什么要用 Gamma 分布作为噪音呢,其实还是为了加速。论文认为比起高斯分布只有一个自由度(Degree of Freedom),即方差, Gamma 分布具有两个自由度,可以调整起来更灵活。对此,论文里面做的实验是,在 DDPM 的环境下,针对 t-50 步时的噪音 ,分别用高斯分布和 gamma 分布去贴合它,当然 gamma 分布可以调整的更加灵活,自然 gamma 分布可以贴合得更好。

(但是问题是 DDPM 我们添加的是高斯噪声,DDGM 我们添加的是 gamma 噪音,这里是不是有点拿着苹果去比橘子了?)

总觉得有些怪怪的。有些高斯分布下成立的东西,拿到 Gamma 分布以后为什么也成立,这一部分论文好像缺少一些解释,网上也找不到任何文章讲解的。说不定哪天,高斯分布的扩散模型走到头了,人们回过头来发现,诶,居然还有这么一篇论文,然后都来研究它了呢?
完。