Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例

2022-11-13 16:14 作者:孤坟killr 0人读过 | 我要投稿

本文中所有图片都来自本人个人电脑运行，欢迎讨论，未经允许转载Σ。

以一张梗图为例，通过X/Y Plot绘图法，展示了Stable Diffusion1.4模型和NovelAILeak模型中CFGscale和Denoising strength两个参数的基本意义及其相互影响。

基本理解：扩散模型生成图像的过程是将以一张满是噪点的图为基准，一点一点地向目标（prompt）“扩散”靠近。其中，CFG可以大致理解为prompt对扩散过程的指导强度。CFG越大，AI就越努力地想将图片精准绘制成prompt中的样子，反之，AI则会自由发挥，生成的目的性不是很强（可能会更有“艺术性”或“创造性”）（也可能生成对人类而言还为时尚早的艺术）。

当进行以图绘图（img2img）时，同样地，基于基本原理，AI会先在图片中添加噪点，再进行扩散绘图。这就引入了新的参数：Denoising strength，添加噪点的强度。AI是基于噪点扩散的，噪点强度越高，AI的创作空间就越大，出图也就和原图越不相似。

下面以实例说明：

下列例子以纯爱战神视频截图为原图，prompt是“a handsome hero standing on the battleground,detaild face,sad face”

图1，SD1.4模型测试结果。（注意，图中横轴参数CFGscale的变化是跳跃式的）

可以看出，当噪声强度极小时，CFG再大也没有用，AI没有发挥空间。

当噪声强度极大时，CFG就比较关键了，会较大地影响图片内容：当CFG极小时，画面很模糊（这个画风让我想起了DiscoDiffusion）；CFG在7左右，已经能正常生成图片，但没有背景（prompt中的battleground被忽略）；随CFG进一步增大，在11时出现了背景；当CFG达到20，背景才被画成战场battleground。

值得注意的是，在噪声强度仅为0.2-0.3时，尽管AI创作空间不大，但只要CFG足够大，AI也基本能生成画风比较像样的图了。

此外还有一些特点：

CFG过小似乎会生成模糊的、笔触很强的感觉的画。

CFG较大时似乎光影对比会更强烈。

对Dinoisingstrength而言，0.5似乎是一个很关键的阈值。超过0.5之后，即便CFG不大，普遍也能实现从临摹到二创的跳跃。

图2，NAI模型结果。（注意，图中横轴参数CFGscale的变化是跳跃式的）

NAI模型结果规律与SD1.4类似（毕竟都是扩散生成），但是NAI明显更二次元，在Denoising较低时就有了漫画画风的倾向。

多论一句，如果只拿来画纸片人，NAI确实比SD更强，但可惜，如果想要画更广阔的领域，还是不得不借助SD模型，尽管它可能不太稳定。每次看DALL·E2或者midjourney的图都觉得好香，尤其midjourney，往往能给人一种精致的感觉。期待4chan的盗火者能再度英雄登场，尽管NAI泄露之后感觉各大公司肯定有了防范措施。

标签：

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例

本文作者的其他文章

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例的评论 (共条)