欢迎光临散文网 会员登陆 & 注册

【AI绘画】LoRA训练与正则化的真相:Dreambooth底层原理

2023-03-22 21:23 作者:秋葉aaaki  | 我要投稿

开头提示:本教程并非实操教程,也并非入门教程,而是高阶教程。

关于Dreambooth,想必大家都已经知道了。LoRA和Dreambooth的关系又是什么?为什么这两个东西都有正则化?


简单来说,目前微调AI绘画模型是这样的:

这两种操作都是在这个视频里讲到的:

区别只有一个:正则化图像

没有正则化图像,他就叫直接微调,有正则化图像,他才叫Dreambooth。

那LoRA又在哪里?LoRA的全称是:LoRA: Low-Rank Adaptation of Large Language Models、他是为了解决大语言模型太大了(以亿计的参数)才出现的,AI绘画是拿过来借用的。

LoRA,他只是一种为了简化微调超级大模型需要巨多算力、传大模型麻烦而产生的算法,本质上,还是上面两种微调方法:

直接微调、Dreambooth方法。



那么,问题就回来了:所有LoRA训练的问题、参数调整,都应该直接归结到本身的训练大模型的问题上。他们是完全一样的,只是加了新的算法LoRA


首先需要明确一点:下文的一切都是在 “微调” 这个语境下的。而且是非常的 “微”,可能训练素材也就几十张。


再继续:为什么需要正则化图像?没有行不行?

行。

如果你训练模型,只针对一个概念训练,那么没有正则化图像没有任何问题,非常的nice。

如果你练多个概念,那就出问题了


这是一只波奇酱。你拿这个作为训练,如果不带class image,你tag打了个 1girl,那么本身的1girl就会被 “污染”,也就是说,整个模型中,1girl都会被染上波奇酱的一些特征,生成不了其他人了。这也是经典的过拟合现象

这通常都是因为训练集太小,也就是之前说的过于“微”的问题。二三十张的训练集,会将整个模型都“带跑”。这就可以总结为小训练集带来的下方两个问题:


下面部分来自于我翻译修改的Dreambooth论文 [1]

问题 1:过度拟合 由于训练图像集非常小,微调大模型可能会过拟合给定输入图像中主体的上下文和外观(例如姿势)

下方这张图显示了一些经过简单微调的示例图像,我们清楚地看到目标狗的外观和环境都与训练图像过拟合。

右上方图像,姿势被固定了,趴在一个东西上


有许多技术可用于解决这些问题,例如正则化或选择性地微调模型的某些部分。然而并不确定模型的哪些部分需要冻结(不修改)才能获得良好的保真度和语义修改灵活性。

根据经验,通过对模型的所有层进行微调,可得到最好的保真度。然而“所有层”,就包括了文本编码器,这就会引起语言漂移的问题。

问题 2:语言漂移 语言漂移现象一直是语言模型文献中观察到的问题,其中语言模型在大型文本语料库上进行预训练,然后针对特定任务进行微调随着它学习改进目标任务,逐渐失去语言的句法和语义知识。

据我们所知,我们是第一个发现影响扩散模型的类似现象的人。由于我们的文本提示同时包含 [identifier] 和 [class noun],当扩散模型在一小组主题图像上进行微调时,我们观察到它会慢慢忘记如何生成同一类的主题并逐渐忘记特定于class的先验知识,并且不能生成相关类的不同实例。

经过微调后,生成的狗全变成这个特殊的狗了(中间)

上图中间部分显示了在 “特定狗” 图像上对模型进行微调后生成的“狗”图像的一些示例。结果清楚地表明,这个模型由于这次的微调失去了生成一般的狗图像的能力。


这也是为何要引入正则化的概念

Prior-Preservation Loss 先验损失(我瞎翻译的我也不知道这玩意中文是啥)

Dreambooth这篇论文提出了一个方法,通过自己先生成一些图像(也是我教程里的class image),来保留先验损失权重,通过此方法来解决过拟合与语言漂移问题。用模型自己生成的样本来监督模型,以便在 few-shot(小样本,可以理解为几张图) 微调开始后保留先验知识。

简单来说:不要学了新的忘了旧的


于是引入了先验损失的loss公式就变成了上面这个样子。相信大家也看不懂,看得懂的自己看论文吧我就不解释了

通过这种Dreambooth方法,就可以得到这么一个东西:

输入训练集 + 提示词 [v] dog,然后还有用模型本身自己生成的一堆dog图像,训练完成后得到了一个特殊标记符:[v]

通过这个特殊标记符就把这次训练的dog和其他本身学过的dog分开了!


大概就是这样,后续有心情在写,写累了,估计也没啥人看,看点赞投币三连的多不多再决定更新


点赞!投币!三连!!!!!!




引用

[1] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).


【AI绘画】LoRA训练与正则化的真相:Dreambooth底层原理的评论 (共 条)

分享到微博请遵守国家法律