欢迎光临散文网 会员登陆 & 注册

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例

2022-11-13 16:14 作者:孤坟killr  | 我要投稿

本文中所有图片都来自本人个人电脑运行,欢迎讨论,未经允许转载Σ。

以一张梗图为例,通过X/Y Plot绘图法,展示了Stable Diffusion1.4模型和NovelAILeak模型中CFGscale和Denoising strength两个参数的基本意义及其相互影响。

基本理解:扩散模型生成图像的过程是将以一张满是噪点的图为基准,一点一点地向目标(prompt)“扩散”靠近。其中,CFG可以大致理解为prompt对扩散过程的指导强度。CFG越大,AI就越努力地想将图片精准绘制成prompt中的样子,反之,AI则会自由发挥,生成的目的性不是很强(可能会更有“艺术性”或“创造性”)(也可能生成对人类而言还为时尚早的艺术)

当进行以图绘图(img2img)时,同样地,基于基本原理,AI会先在图片中添加噪点,再进行扩散绘图。这就引入了新的参数:Denoising strength,添加噪点的强度。AI是基于噪点扩散的,噪点强度越高,AI的创作空间就越大,出图也就和原图越不相似。

下面以实例说明:

下列例子以纯爱战神视频截图为原图,prompt是“a handsome hero standing on the battleground,detaild face,sad face”

图1,SD1.4模型测试结果。(注意,图中横轴参数CFGscale的变化是跳跃式的)

SD模型结果

可以看出,当噪声强度极小时,CFG再大也没有用,AI没有发挥空间。

当噪声强度极大时,CFG就比较关键了,会较大地影响图片内容:当CFG极小时,画面很模糊(这个画风让我想起了DiscoDiffusion);CFG在7左右,已经能正常生成图片,但没有背景(prompt中的battleground被忽略);随CFG进一步增大,在11时出现了背景;当CFG达到20,背景才被画成战场battleground。

值得注意的是,在噪声强度仅为0.2-0.3时,尽管AI创作空间不大,但只要CFG足够大,AI也基本能生成画风比较像样的图了。

此外还有一些特点:

CFG过小似乎会生成模糊的、笔触很强的感觉的画。

CFG较大时似乎光影对比会更强烈。

对Dinoisingstrength而言,0.5似乎是一个很关键的阈值。超过0.5之后,即便CFG不大,普遍也能实现从临摹到二创的跳跃。

图2,NAI模型结果。(注意,图中横轴参数CFGscale的变化是跳跃式的)

NAI模型结果

NAI模型结果规律与SD1.4类似(毕竟都是扩散生成),但是NAI明显更二次元,在Denoising较低时就有了漫画画风的倾向。

多论一句,如果只拿来画纸片人,NAI确实比SD更强,但可惜,如果想要画更广阔的领域,还是不得不借助SD模型,尽管它可能不太稳定。每次看DALL·E2或者midjourney的图都觉得好香,尤其midjourney,往往能给人一种精致的感觉。期待4chan的盗火者能再度英雄登场,尽管NAI泄露之后感觉各大公司肯定有了防范措施。

Stable Diffusion中CFG scale与denoising strength的参数分析--以纯爱战神为例的评论 (共 条)

分享到微博请遵守国家法律