【AI绘画】深入理解Stable Diffusion!站内首个深入教程,3...

写个笔记,这个是给已经看完需要复盘的人用的
(主要也是本人自用)
记得给秋叶这个视频一个大大的三连,我这个笔记就不用给了,留给秋叶就好
先更一下前面的地方过审先,后续的部分会补上
如有错误还请纠正,会进行修改的
Stable Diffusion后续会简称为SD
1. SD模型基础架构原理解析
上半部分
(上半部分可以不怎么看,平常用的功能都是在下半部分)

这张图是SD的前身,Latent Diffusion论文提出的结构
Latent Diffusion 是机器学习模型旨在通过将数据集映射到较低维的潜在空间来学习数据集的底层结构(网上找的不一定准确)


Pixel Space (像素空间)
我们平时所在的图片都会在这里

经过这个左边的e和d就是VAE


Latent Space(潜空间)

Conditioning(条件作用)
作为一个条件输入,包括我们平时常用的text,也就是文本输入
下半部分



Cross attention (交叉注意力层)
交叉注意力可以通过在推理过程中修改扩散模型的内部注意力图来更精细地控制提示,无需用户输入掩码,并且性能损失最小(与剪辑引导相比),并且无需对扩散模型进行额外的训练或微调
(网上找的不一定准确)

下方黄色框框里的整个架构是叫U-Net
UN-et是U型编码器-解码器网络架构

平常迭代的地方是在U-net左侧的框框
Step代表了迭代的次数
平常生成图片的时候会通过text经过以下图,圈的蓝色框框

经过的时候可以把这个当成是生成条件,通过cross attention ,然后和u-net进行结合去引导SD的生成图片
这些过程都是在Latent Space,也就是在潜空间里运作的
那为什么要在潜空间里运作呢??
潜空间可以把它理解为一个压缩过的空间
直接原因就是计算算力可能会不够用
小总结
上半部分是从给正常图片,然后增加噪声得到一张混乱噪声图片,这个部分是用来训练用的
下半部分才是正常用生成图片的部分
2.