AI绘图学习笔记(一)——基本概念
概念介绍
1.Stable Diffusion
直译为稳定扩散模型,是一种用于生成图片的AI算法,同时也可指运用这种算法的AI绘图软件。
这个软件大致可分为三层,分别是文本编码器、U-NET和VAE。
文本编码器的作用是将你给它的输入(比如文生图中的tag,图生图中的图片结构)转化为软件能理解的参数。
U-NET简单理解就是生成图片的算法。
VAE的作用是对U-NET生成的图片做后处理,VAE相关的模型一般是用来美化图片,让图片更清晰、颜色更艳丽。
2.webUI
一般指的是Stable Diffusion WebUi,简称 SDWebUi,web UI是一个基于 Gradio 库的 Stable Diffusion 浏览器界面。
3.大模型(底模型、主模型,基础模型,base model,check point)
常见大小:2G-7G
主要作用:决定出图的偏向,是真人写实、二次元、建筑、服装或者其他。
4.微调模型
4.1 介绍
主要作用:在主模型的基础上进行微调,以达到出图者想要的效果。
举例说明:出图者想要绘制一个美女,也添加了美女tag,软件绘制的图也的确算是美女,但不是出图者喜欢的类型。
在没有附加模型的情况下,出图者只能靠大量随机重复以期望软件绘制出自己喜欢的图片。
这种情况下,如果出图者加上合适的附加模型,那么最终出来的图大概率就是附件模型指定的效果,这样就能大大节约时间,提高效率。
甚至更极端一点,在出图者心中,只有LYF算美女,也只想出LYF的图,那么它就可以添加一个LYF的附件模型,那么软件出的图基本上就都是LYF了。
4.2 微调模型类别
下面这些都是附加模型的类别。虽然这些附加模型理论上能应用于在任何调整需求上,但因为模型的具体策略和算法不同,擅长调整的方向不同,所以一般都是根据不同的需求来选择不同的模型类别。
不过一般来说,因为技术再不断进步,所以后面出现的模型类别会优于前面的模型类别,所以现在用的最多的是最新出现的lora模型。
Embeddings(嵌入式):也叫textual inversion(文本反转),提示词打包,可以用别人已经训练好的模型在使用很少提示词的情况下达成特定的效果。和Lora不同,这个模型数据量小,所以更适合想生成某一个特定主题,但心里没什么好的想法,用来寻找灵感的场景。
常见大小:几十K
Hypernetworks(超网络):基本不再使用,本人也不了解,不多做介绍。
常见大小:10M~1G
lora:能够在很小的算力和数据集的前提下达到很好的效果,是目前最流程的模型。因为lora模型能保存的信息更多,在复刻这一应用场景表现更优秀,所以现在流程用它来固定写实风的人脸,简单来说就是用来决定脸长什么样。
常见大小:100M左右
5.模型的VAE
一般名字中带vae,主要用来美化出图,一般来说加载VAE之后图片会更精细,更鲜艳。不过有些base model在训练时就自带VAE了,如果加载VAE反而会变差,这个要看情况。
6.后缀名
章节3-5中的模型后缀名可能是ckpt,safetensors,pt三者中的任一一种,所以不能通过后缀名来判断模型文件到底是什么模型,目前也没有通用的判断方法,所以请在下载时注意分类。
ckpt和safetensors实质上是同样的文件,但因为各个模型算法有安全漏洞,导致普通模型文件ckpt可能携带病毒,所以对ckpt文件进行了封装,变成了更安全的safetensors。
7.其他名词
DreamBooth:一个训练绘图AI的算法,效果很好,但需要大量的数据和算力。

