【自用】DALL·E 2（内含扩散模型介绍）【论文精读】（内含生成模型的串讲GAN，AE...

2023-04-05 13:22 作者:九转大肠制作 0人读过 | 我要投稿

字幕提取：https://b.jimmylv.cn/video/BV17r4y1u77B

【自用】DALL·E 2（内含扩散模型介绍）【论文精读】（内含生成模型的串讲GAN，AE, DAE, VAE, VQ-VAE ... diffusion

GPT哔哔终结者

🔥 热门视频
🥳 提反馈
💻 客户端

更新日志 v2.3.0开源项目，开发者日记：长视频总结 🎉 & 思维导图 & 分享、保存笔记 🤯

🙇 亲爱的用户，因请求繁忙，OpenAI 成本已失控。如需使用，请付费支持，感谢您助力每一个梦想你只需要把任意 Bilibili 视频 URL 中的后缀 ".com" 改成我的域名 "jimmylv.cn" 就行啦！😉
比如 www.bilibili.com/video/BV1k84y1e7fW 👉 www.bilibili.jimmylv.cn/video/BV1k84y1e7fW

一键总结播客音视频内容

Powered by GPT-3.5 AI

在下面的输入框，直接复制粘贴 bilibili.com/youtube.com 视频链接 👇

请点击展开填写 License Key（每天免费10次，支持「购买次数」啦！也可以真的「给我打赏」哦 🥳）

是否显示Emoji是否显示时间戳开启分段总结English中文繁體中文日本語ItalianoDeutschEspañolFrançaisNederlands한국어ភាសាខ្មែរहिंदी输出语言大纲层级(≤1)要点个数(≤5)句子长短(≤14)一键总结🏄刷刷热门

📝 DALL·E 2（内含扩散模型介绍）【论文精读】
更多论文：https://github.com/mli/paper-reading

大纲视图字幕列表文章视图(beta)Copy

片段10:00~2:37

大家好今天我们就一起来看一下两个月之前OpenAI刚放出来的一篇力作 DALL·E 2 DALL·E 2 呢是OpenAI一系列文本图像生成工作的最新一篇去年一月份呢他们先推出了DALL·E 然后在年底的时候呢又推出了GLIDE 然后现在4月份呢刚推出了DALL·E 2 DALL·E 2一出来呢其实网友就已经炸开了锅我记得那两天的twitter上或者说instagram上到处都是DALL·E 2生成的图片所有的论坛上基本都被DALL·E 2刷屏了虽然网上有很多很好玩的很新奇的生成那些图片但是OpenAI这里自己做的这个DALL·E 2的介绍呢更是非常精美所以我们就先来看看他是怎么宣传DALL·E 2的作者上来先说呢 DALL·E 2是可以根据这个文本描述去生成这种原创性的真实的图片这个原创性很重要因为大家经常觉得你这个模型是不是在很多很多这个数据上训练之后它其实就是把这些图片记住了呢然后接下来它就不停的复制粘贴去生成新的图片而已但是作者这里认为呢 DALL·E 2是能生成原创性的图片的也就说是这种fake image 是从来没有在训练集里出现过的图片然后作者接下说 DALL·E 2呢是真的把图片文本里那些特征都学到了所以说呢它可以任意的去组合这种概念或者属性或者这种风格接下来呢OpenAI就举了几个例子那左边呢就是这个文本描述从上到下一共有3行分别对应的就是这个概念、属性和风格那比如说呢我们现在如果选定一个宇航员骑着一匹马而且是这种写实的风格那它就会生成像右图这样的图片我们可以看出这个图片的语义其实和这个文本描述非常的贴切而且呢这个细节也非常的逼真那如果我们现在换一下这些概念或者风格会怎么样呢比如说我们现在换一下一碗汤然后属性呢变成了去另外一个空间的传送门然后风格呢就是一幅数字画然后DALL·E 2就能生成这么一张图片真的是让人瞠目结舌这个其实都可以直接拿去做插画或者当任何广告的这个宣传画了那最后我们再看一个例子如果我们把最上面这个概念换成teddy bear 然后属性呢就是说它们正在做最新的这种AI研究然后风格呢就是在1980年代的那个月球上 DALL·E 2呢就真的能够生成有两只teddy bear 然后在电脑跟前做什么工作而且是在月球表面这个生成效果真的是非常的不可思议那除了根据文本直接去生成图片之外呢那OpenAI这里说DALL·E 2 还能做的事情就是根据文本去对已有的这个图片呢进行编辑和修改它呢可以任意添加或者移除现在图片里的物体而且甚至呢能够把这些阴影光的反射

片段22:43~5:18

还有这些物体的纹理全都考虑在内这里呢作者又举了几个例子比如说左边这张图片呢是一个室内的一个大厅然后它现在文本呢就给这对应的这123三个位置上去添加一只火烈鸟那现在如果我们把这个火烈鸟添加的位置改成 3 那我们可以看一下哎就在3的这个位置上就生成了两只火烈鸟而且呢 DALL·E 2的这个生成它不是一对一映射关系的因为它使用的是一种叫扩散模型的结构去做这种图像生成所以它可以生成任意多的图像但是呢大体内容都差不多只不过具体的细节不太一样那作者这里还给了很多别的例子比如说他生成的里头也有一只火烈鸟或者说呢还有脖子更长的火烈鸟而且这里我们可以注意到这里的火烈鸟呢其实在水里还有倒影那更神奇的是呢如果我们把现在火烈鸟添加的位置改成这个位置2 我们就会发现呢模型其实是在这个水面上放了一个火烈鸟形状的游泳圈这个生成结果呢其实也是很合理的因为一般在室内的这种泳池或者水面上不太可能会出现真的火烈鸟往往呢是这种火烈鸟形状的游泳圈那现在如果我们再换一个场景比如说换到这个室内大厅里面文本描述呢是添加一个沙发我们就会发现 DALL·E 2可以生成各式各样的沙发而且还可以变换颜色而且还可以变换样式然后如果我们换一个位置呢加到这个2的位置它又会生成新的沙发但是呢就是在对应的这个位置之上瞬间觉得其实以后的这个家装设计家装装修呢也没有那么难了给一个平面图想加什么加什么想在哪加在哪加然后呢 DALL·E 2还能干很多事情即使在没有文本输入的情况下呢 DALL·E 2依旧可以做一些图像生成的工作比如说这里你给定一张图片它就可以根据已有的这张图片和它的风格去生成很多类似的这种风格的图片而不改变已有的这个语义那比如说这张世界名画经过DALL·E 2的变换之后呢就变成了右边这个样子而且呢就像我刚才说的一样 DALL·E 2这个模型呢不是一个一对一的映射它其实是可以生成很多种类似的图片的比如这里人头的方向改变了然后这里头巾的样式改变了当然了人的长相呢一般也都有微妙的改变若这里呢我们再看另外一幅世界名画这个星期日的下午我们就可以看到 DALL·E 2真的是真实的模仿了这种风格然后又生成了很多很多种这样不同的图片所以说在DALL·E 2这个工作出来之后呢 OpenAI的CEO本人都在twitter上说他觉得他之前对AI的理解呢可能有都有了错误因为我们一直觉得AI呢

片段35:23~8:00

是能够先处理这种就是重复性的工作这种体力工作而这种带有创造性的工作呢往往是AI无法取代的但在现在看来呢这种艺术的创作呢反而好像已经触手可及了那在作者卖完了这些最惊艳的结果之后呢作者就把DALL·E 2跟DALL·E 的这个生成效果对比了一下那这里这个例子呢就是用同样的文本生成的两张图片我们可以看到呢 DALL·E 2可以生成之前 4倍的这个分辨率所以说看起来呢更清晰也更逼真了那如果光拿一张图举例大家可能不信所以作者这里呢又做了另外一个实验就是它找了一些志愿者然后让这些志愿者呢看1,000张图片分别是DALL·E生成的和DALL·E 2生成的那最后统计的结果呢就是有70%的人认为DALL·E 2生成的图片跟这个文本描述呢更贴切然后有将近90%的人认为呢 DALL·E 2生成的图片要比DALL·E生成的图片要更真实最后呢又是老生常谈 OpenAI经常搞这个大模型大数据这个东西然后到最后呢他就跟你来谈一谈这个安全考虑或者道德公平性伦理这种考虑他这里就说呢我们暂时还不能开源也不能release我们的模型我们甚至连API都不开放目前呢 OpenAI 就只是把他们的API 开放给了一小部分用户而让他们呢去做这种内测或者做一些研究看看DALL·E 2到底有什么缺陷有什么限制那其实作者这里说的这些安全考虑呢主要就是说怕用户呢去生成这种带有暴力的或者成人的或者带有政治色彩的这些图片当然了网上收集的这种图像文本对肯定会带有很多这种偏见和公平性的问题那如果你现在觉得DALL·E 2很吸引你然后想去玩一下的话那你就可以加入DALL·E 2的这个waitlist 但是这个waitlist应该很长我也早在一个半月之前就申请了但是至今没什么消息从twitter和reddit使用的情况来看呢 OpenAI呢主要是把优先权给了那些大v 说白了就是让他们去给DALL·E 2 做这种免费的宣传那对于大部分没有排上waitlist的小伙伴来说呢如果你非常想尝试一下DALL·E模型那这里呢其实github上有一个开源的DALL·E库叫做dalle-mini 目前呢我们可以看到它的star 也已经有9,000个了虽然它的模型呢都是在比较小规模的数据集上去训练的而且模型本身也比较小所以说最后的结果呢不是那么好但是玩起来已经很有意思了这里呢你当然可以把它的代码下下来在你本地上去跑或者呢你就像它这里说的一样打开这个colab 然后在colab里去用再或者呢最简单的一种方式就是直接用APP

片段48:05~10:46

也就是它这里最上面说的这个 Hugging Face的这个应用 Hugging Face大家肯定都不陌生了算是现在最流行的nlp的开源库而且已经渐渐有变成CV 甚至多模态里最流行的库的趋势那Hugging Face这边呢它就提供一个东西叫space 就是一个空间然后大家可以把它的模型代码上传到这个上面就可以做成一个APP 然后大家呢就可以直接来玩比如这里呢就是一个DALL·E mini的一个应用APP 大家呢就可以随意把你的这个文本写在这个文本框里然后点一下这个run 底下就会出来很多这个DALL·E mini生成的图片这里呢因为太多人玩了所以经常排不上队我就提前体验了一下我现在可以把我跑的例子呢跟大家分享一下比如这里我的第一个例子就是有一只狗在月球上奔跑我们可以看到这个模型小了确实还是不行生成的这个画质还是渣了不少但是呢它大概生成的这个意思还是在那下一个例子呢就是一只狗和一只猫在打架那这些图片里呢也基本都有一只狗和一只猫在对峙但是这里呢画就比较抽象没有那么多写实比如说这里是个狗头旁边接了两个这种身子一个白色一个黄色你也不知道它接的是哪个然后下面这张图呢看着猫好像是在打架的样子可是这个猫脸也没有了对整体上还是比较糙的然后再来生成一张食物的照片就是边吃拉面边吃sushi 这里生成这些图片质量还不错那可能是因为这个例子比较简单因为它就是两个物体拉面和sushi都是比较常见的物体所以说生成的呢也就比较逼真好最后呢就是在亚马逊AWS种西红柿但是模型呢应该还不理解什么是AWS 对它就是把西红柿画出来这个在DALL·E 2本文里也有介绍就是当这个文本太过复杂场景太过复杂的时候其实模型呢还是会选择一个最简单的场景然后把它生成出来那不论是OpenAI 生成的这种精美的高清大图还是我用DALL·E mini 生成的这种画质比较糙的小图片总之呢 DALL·E系列的工作这种根据文本去生成图像的质量还是非常好的而且可以说是出人意料的好所以自从DALL·E在2021年1月份出来之后后续就有一大堆工作进行跟进比如说在21年5月份的时候呢清华就推出了CogView这个模型它呢还支持中文去生成图像然后到11月份的时候呢微软和北大就推出了这个NÜWA（女娲）模型它不光能生成图像而且还能生成比较短的视频然后到12月份呢 OpenAI自己又推出了GLIDE这个模型也就是我们今天DALL·E 2 主要基于的这个图像生成的模型我们一会也会提到然后呢同样在12月百度也推出了ERNIE-ViLG这个模型它也支持中文

片段510:51~13:31

而且它这个模型也非常大有100亿参数基本跟最开始这个DALL·E120亿参数呢就非常接近了然后呢转眼来到今年 4月份的时候呢OpenAI又推出了DALL·E 2 然后同样在4月呢清华又再次推出了CogView 2 紧接着一个月之后呢他又推出了CogVideo 就专门针对生成视频做的最后呢就在上个月google也不甘示弱推出了他们自己的Imagen Imagen呢其实相对而言模型要简单很多而且效果呢也跟DALL·E不相上下甚至很多人呢都觉得Imagen的效果更好但是其实呢 Imagen和DALL·E 2所用的模型呢都差不多它们的底层呢都是用了扩散模型去做这种图像的生成所以说扩散模型真的是一个很火的方向预感到未来几年呢基本上它就要取代GAN的这个位置因为GAN其实已经没有什么可以做的了已经被人做了五六年了该挖掘的东西呢全都已经挖掘完了扩散模型呢作为新起之秀有太多太多可以提高的地方现在扩散模型的状态呢基本就跟17、18年时候那个GAN的状态差不多所以应该至少还有两到三年的时间去充分发挥它的潜力那前面说了这么多接下来呢我们言归正传一起来精读一下DALL·E 2这篇论文首先我们看一下题目作者说呢使用CLIP训练好的这种特征来做这种层级式的依托于文本的图像生成这里层级式的意思呢是因为DALL·E 2的这个模型是先生成一个小分辨率的图片比如说64*64 然后呢再利用一个模型上采样到256*256 然后再使用一个模型上采样到1024*1024 变成一个高清大图所以是一个层级式的结构然后DALL·E 2本身完成的任务呢就是根据提供的这个文本从而去生成这个新的图像那至于使用CLIP提供的这个特征其实DALL·E 2这个模型呢是先训练好了一个CLIP模型然后找到图片和文本对之间的这种相连关系之后这个时候呢给定一个文本 CLIP的文本编码器呢就可以把这个文本变成一个文本特征然后DALL·E 2 就训练一个prior模型这个模型的输入呢是这个文本特征然后它的输出呢是这个图像特征然后再把这个图像特征给接下来的这个解码器从而生成一个完整的图像所以说整个DALL·E 2模型呢是离不开CLIP特征的作者团队呢都来自OpenAI 大家应该都很熟悉了这里的一作Aditya呢其实参与过CLIP和DALL·E的工作 Mark呢也是DALL·E的原班作者而且他主要呢是做Codex和GPT 3的但是因为DALL·E 2这篇论文它这个图像解码部分呢主要用的是diffusion model 就这个扩散模型所以说呢又找了两个扩散模型的这个专家他们呢做过iGPT

片段613:36~16:14

而且最近呢刚写过Improved DDPM这篇论文也就是denoising diffusion model 所以把扩散模型呢玩的是很溜所以一会呢我们也可以看到 DALL·E 2这个模型其实就是CLIP模型加上GLIDE模型而GLIDE模型呢就是一个基于扩散模型的文本图像生成的方法那从作者这里也可以看出来就是CLIP的作者加上GLIDE的作者那在精读论文之前呢我们先来看一下文章的整体结构 DALL·E 2这篇论文呢其实不长跟CLIP的四五十页比起来呢 DALL·E 2其实只有27页如果你把后面的这些可视化还有这些参考文献都去掉的话其实也就十几页而且全文呢这些图确实都比较多然后论文上来呢先是说摘要然后是引言然后在引言部分呢贴了9个高清大图就展示了一下他们生成的这种1024*1024的这些大图到底画质有多么的好然后接下来呢就是DALL·E 2论文的这个主体方法部分其实只有短短的两页然后在这里呢作者甚至都没有去讲CLIP 他认为你已经知道CLIP是什么了他主要就讲的是它后面图像生成这一部分比如说这里呢他就先讲了一下decoder 这个解码器下面呢就讲了一下这个prior 先验模型然后接下来呢作者就大概用了四五页的篇幅去介绍一下DALL·E 2到底能干什么然后又用了四五页的篇幅呢去跟别的方法做了一些对比不光是数字上的对比还有可视化上的这种对比然后最后呢写了一下相关工作最有意思的呢就是最后几页他描述了一下 DALL·E 2的这个现在的局限性和不足其实当我们最后看到这些不足的时候呢我们会发现其实DALL·E 2还有很多需要提高的地方它远远没有我们看到的那几张图片一样那么惊艳接下来呢是参考文献这里呢是一些具体的这个训练细节最后呢又展示了一下根据同样一个文本能够生成不同的输出而且每一张输出的图片呢都非常清晰和逼真那接下来我们直接看摘要作者上来说之前的那些对比学习的方法比如说我们OpenAI自己的CLIP模型这种模型已经可以学习到很稳健的一个图像特征它既能够抓住这个语义信息又能抓住这个图像的这个风格信息那既然这个特征这么好这么稳健那如果你只拿它去做这种分类任务就有点可惜所以作者接下来说呢为了能够借助于这些特征然后能用来做这个图像生成我们呢提出了一个两阶段的一个模型这两个阶段呢分别叫prior和这个decoder prior呢就是给定一个文本描述它能够给我生成一个类似于CLIP的一个图像特征然后解码器的意思呢就是说当你给定这个图像特征之后我能根据这个特征生成一个图像

片段716:20~19:02

所以这个过程呢其实说直白点就是给定一个文本然后我先用一个CLIP模型把它生成一个文本的特征这一步呢是固定的因为这里这个CLIP模型呢是锁死的然后接下来呢就到文章说的这个两阶段的模型它根据这个文本特征去生成一个图像特征这一步呢就叫做prior 当然CLIP模型在这里也有用了因为CLIP生成的那个对应的图像特征是用来在这里做ground truth用的然后你一旦有了这个图像特征我就需要有一个这个解码器去生成最后的这个图像然后呢就完成了这个从文本到图像的生成过程然后作者接下来说呢他们发现就这种显式的去生成这种图像特征的方式能够很显著的提升图像的这个deversity 就这个多样性也就是说加上这一步是有好处的而且呢对于这个图像的这个写实程度还有这个跟文本的这个匹配程度都没有什么损失就说我生成的这个图又逼真又多样那这个特性还是非常好的因为我们大家都知道 GAN生成的图像虽然非常的逼真因为它本来的目的就是以假乱真嘛但是呢它的多样性不太好生成的图像都长得差不多不太具备这种原创性所以这也就是最近的模型像DALL·E 2和Imagen 大家都使用扩散模型的原因因为它的多样性好还有创造力然后作者接下来就强调了一下他们这个基于扩散模型的这个解码器能够基于给定的这个图像特征但是生成很多不一样的这个图片但是这些图片呢它的这个语义信息和风格都是比较接近的只不过是一些细节呢不太一样接下来呢作者又开始卖另外一个点就说因为我们这个是通过文本生成图像所以呢我们就很容易的通过CLIP这个模型作为中间那个桥梁从而达到这个能用文本去直接对图像进行编辑的功能而且是zero-shot 就是你不需要去训练你直接拿来这个DALL·E 2的模型你就可以去用了就跟我们之前展示的那个在大厅里放沙发的那个例子一样你就可以在任意一个地方去加个沙发加个椅子或者把这个沙发去掉把这个壁画去掉你可以实时的利用这种文本的信息去引导这个模型去生成各种各样你想要的图片然后作者最后呢说了一下模型的结构他说他们的这个解码器呢用的是这个扩散模型然后在他们的这个prior模型里呢他试了这个auto regressive 自回归模型和这个扩散模型但最后他们发现了还是这个扩散模型效率又高最后生成的效果又好所以整体上呢 DALL·E 2就是一整个都是扩散模型我其实没太明白作者为什么要把这句话当成最后一句话可能作者们觉得呢

片段819:06~21:45

这个才是他们最想表达的一个观点也就说接下来大家都来使用扩散模型吧所以把模型结构这个东西呢放在了最后当成压轴的一句话接下来呢我们一起读引言作者上来说视觉领域最近的一些进展呢主要就是使用了更大的这个模型而且呢使用了更大的一个数据集这个数据集呢主要是这个图像文本对也就是带有标题的这种图像那代表作之一呢就是他们自己的这个CLIP模型了 CLIP模型呢就通过最简单的那种对比学习的方式就能够学习到一个很好的这个特征我们之前也讲过CLIP这篇论文首当其冲的就是它们有这个特别好的这个zero-shot的能力就是任何一个图片拿过来你给一些你感兴趣的这些标签它就能把这个图片呢分给其中的一个标签所以它能够识别很多很多很多的类远比ImageNet的1,000类要多非常的灵活然后CLIP学到这个图像特征呢也很稳健尤其是对这种分布偏移非常的稳健但其实上次我们在CLIP 论文里也读过如果真的遇到那种OOD的样例那就是完全不在当前的分布之内的话 CLIP模型呢也一筹莫展就连最简单的0123456789 它都识别不好然后作者这里又说 CLIP还有一个好处就是说如果你去做这种fine-tune的话它能够在一系列的这种视觉或者文本的任务上取得很好的成绩就是总体而言 CLIP学到的这个特征呢还是非常好的然后接下来呢作者这个画风一转直接说这个扩散模型也变成了在这个图像生成领域里一个非常好用的一个工具能够呢在这个图像还有这个视频生成上呢都达到了这种就是最好的程度那其实呢扩散模型在很早之前就提出了其实15年就提出了甚至有可能更早就已经提出了它呢是一种概率分布模型所以说它生成这个图片呢是从一个分布里去采样所以它的这个多样性呢非常的好但是它的保真度呢比不过GAN 因为GAN本身就是为了这个以假乱真去优化的所以说那个GAN生成的图像呢就特别的逼真细节就特别的好但是扩散模型呢就做不到这一点至少是在数值比较上比如说inception score 或者说FID score 在这些上面 GAN一直都是压着diffusion model的但是从20年开始呢就有一系列的工作把这个扩散模型的这个保真度做得更好了比如说刚开始的DDPM 到后来的improved DDPM 然后到Diffusion Models Beat GANs 一直到最新的GLIDE和DALL·E 2 这一系列的工作呢采用了很多很多小的这些技巧其中有一个比较著名的呢就是这一个叫引导的技巧 guidance technique 它能够呢牺牲一部分这个这个多样性

片段921:49~24:25

从而能达到更好的这个保真度这样话呢这个扩散模型一下在数值比较上就跟这个GAN不相上下了所以这也就造就了扩散模型这两年的火热因为它也算是SOTA了那这样大家就可以去跟进这个工作了否则老怕过不了审稿人那一关那接下来第二页呢作者就放了一个九宫格展示了九张这个高清大图我们这里呢也可以看几个例子比如说这个图片呢就是说一个柴犬带了一个贝雷帽而且穿了一个黑色的高领毛衣我们可以看到这个贝雷帽和这个高领毛衣而且真的这是黑色的下面是红色当然是任意生成的而且这个狗的这个鼻子嘴啊各种细节都生成的非常的好而且甚至这个背景呢还是虚化的搞的真的跟一个近景拍摄的一个照片一样然后这张图呢写的是一个疯狂的一个熊猫科学家正在把一些冒泡的这个化学物质呢混合到一起确实也是栩栩如生最后还有这个一个海豚穿着宇航服在这个土星外面游荡或者说呢在这个时代广场上有一个小的熊在这个滑板上这DALL·E 2这个模型不光是把这些物体画出来了而且真的是把这个泰迪熊画到这个滑板之上而且它也真的理解这个时代广场长这个样子所以当大家看到这些图之后呢脑海中只能觉得 DALL·E 2这个模型真的是太强了这里呢我们就不看引言的第二段和第三段了因为其实就直接看这个图二呢就能知道它们在说什么作者这里呢把这个图画成了两部分上半部分呢其实就说了的是这个CLIP 下半部分呢其实才是真正的这个DALL·E 2 那我们一个一个来看首先我们来看上面这个CLIP模型我们来复习一下CLIP模型呢就是说我给定一个文本然后我给定一个对应文本的这个图像它俩呢是一个对然后这个时候呢我把这个文本呢通过一个文本编码器得到一个文本特征然后图像呢通过一个图像编码器得到一个图像特征那这两个呢就应该是一个正样本那这个文本跟其他的图像呢就应该是负样本然后我通过这种方式呢去做这个对比学习从而最后呢把这个文本编码器和这个图像编码器都学的很好而且这个文本和图像的特征呢真的就联系在一起了是一个合并的多模态的一个特征空间那一旦这个CLIP模型训练好之后呢其实这个文本编码器和这个图像编码器呢就锁住了就是在DALL·E 2这篇论文里呢 CLIP的这个模型一直都是锁住的它是不会进行任何训练和fine-tune 那接下来呢就是作者在摘要里说过的这个两阶段的训练方式第一个阶段呢就是prior 第二个阶段呢就是decoder 那其实最暴力的做法呢就是如果我要根据这个文本

片段1024:30~27:12

去生成最后的这个图像那其实呢我这中间有个大模型中间反正就去学一些融合的特征我直接生成就可以了但是就像作者在摘要里说的一样如果中间有这么一个显式的生成这个图像特征的一个过程就是先从文本生成文本特征然后再生成图像特征然后再由这个图像特征生成最后的图像呢这个效果就会好很多所以他们才采取了这种两阶段的方式那具体来说呢在训练的时候就是首先我给定一个文本然后通过一个锁住的CLIP的这个文本编码器我就得到了一个这个文本特征所以说其实这里这个文本和这个文本特征呢都是固定的是有一对一映射关系的然后呢我想通过这个文本特征得到对应的这个图像特征那这个怎么学习呢作者这里就说呢因为CLIP这边呢也有这个图像特征所以在训练的时候呢我是有这个图像文本对的我就可以先把这个图像呢得到这个图像特征然后拿这个图像特征过来呢当这个ground truth去监督那意思就是说我要用这个文本特征去预测这个ground truth的这个图像特征通过这种方式就把这个prior模型给训练出来了这样等到真正做推理的时候也就是说我只有文本没有配对的这个图像的时候呢我这个文本先生成一个文本特征我还是能够通过训练好的这个prior模型去得到一个类似于CLIP生成的那个图像特征这个图像特征按道理来说应该非常好它既能够用来生成一个图像而且它还是能够跟这个文本之间是有对应联系的然后一旦我们训练好了这个prior模型我们拿到了这个图像特征那接下来呢就是用一个比较常规的一个扩散模型一个解码器去生成最后的这个图像而已具体的细节呢我们接下来再讲所以我们可以看到其实DALL·E 2这篇文章就是把CLIP和GLIDE的两个模型呢合在了一起但是呢里面有很多值得借鉴的技巧而且呢大力出奇迹这个效果也非常好所以DALL·E 2这个工作的影响力呢还是非常巨大的然后其实另外一个比较有意思的事情呢就是其实在DALL·E 2这篇论文里他并没有管自己叫DALL·E 2 他其实给自己起的名字呢叫做unCLIP 那为什么是unCLIP呢因为对于CLIP来说它是给定文本图像它最后呢是想得到这个特征然后拿这个特征去做图像匹配去做图像检索之类的所以它是一个从输入到特征的过程但是呢对于DALL·E 2来说它呢是通过一个文本特征然后到图像特征然后最后到图像的过程所以它其实呢是一个CLIP的反过程它是把特征呢又还原到了这个数据所以说作者呢管他们整个的这个框架呢叫做unCLIP 所以说当你听到别人说unCLIP的时候

片段1127:17~29:51

不要觉得这是另外一篇新的论文那其实它就是DALL·E 2 那接下来呢我们就来看一下文章的主体方法部分但其实呢对于DALL·E 2来说它的这个文章主体方法部分就只有两页内容非常的少它主要分为两段这一段讲的是这个decoder 然后这一段讲的是这个prior 因为decoder就是一个升级版的GLIDE模型所以说他这里呢主要就写了一下和之前GLIDE 模型的这个区别都是一些实现上的细节完全没有讲这个方法本身是怎么做的然后prior这个章节呢其实写的也是很简单里面都是一些实现上的细节所以如果我们只看DALL·E 2 这一篇文章的话呢我们是很难知道这个总体模型到底长什么样输入输出是什么这个目标函数是什么就很多这种问题呢都无法从这篇论文里得到答案所以鉴于此呢在这里我准备先把这个图像生成这块之前的一些工作呢先大概介绍一下非常简略地从刚开始的这个GAN模型然后呢还有Auto-encoder Variational Auto-encoder 就是VAE这一系列的工作然后再到最新的这个diffusion model 扩散模型以及它的一系列后续工作那我们先来看GAN GAN的话呢就是左右手互搏对吧你要训练两个网络一个呢叫做generator就是生成器一个是discriminator就是判别器生成器这边呢就是你给定一个这个随机噪声它呢就会给你生成一些东西在这里呢我们希望它能生成一个比较真实的图片然后呢我们把这个生成的图片呢给这个判别器同时呢我们再给一些这个真实的图片给这个判别器然后让这个判别器去看到底哪个是真图片哪个是假图片所以说后面呢其实就是一个0-1的这个二分类问题然后呢就通过这个generator和discriminator 这两个网络之间这个互相较量然后这个判别器呢不停地提高自己然后这个生成器呢也不停地提高自己所以说最后呢能生成这种比较真实的图片而事实上呢因为GAN的这个目标函数呢就是用来以假乱真的所以说截止到目前为止呢 GAN生成的图片这个保真度也是非常高的就真的是人眼也不好区分它生成的图片是真是假所以这才有了DeepFakes的火爆然后不光是真实而且经过这么多年对GAN的这个模型改造之后呢GAN其实现在呢也比较好用需要的数据呢也不是那么多能在各个场景底下使用所以优点还是蛮多的但它有一个最致命的缺点那就是它还是这个训练不够稳定最主要的原因呢就是它要同时去训练这两个网络所以说就有一个平衡的问题经常如果训练的不好呢这模型就训练坍塌了

片段1229:56~32:30

而且呢因为GAN的这个主要优化目标呢就是让这个图片尽可能的真实但是它生成图片的这个多样性呢就不太好它的这个多样性呢主要就来自于刚开始的这个随机噪声简单点说呢就是它这个创造性还不太好然后最后呢它不是一个概率模型它的这个生成都是隐式的它就是通过一个网络去完成的所以你也不知道它做了什么你也不知道它遵循了什么分布所以说GAN呢在数学上就不如后续的这个VAE 或者这些扩散模型优美那接下来呢我们看一下auto-encoder 以及到后来的这个VAE和VQ-VAE 那auto-encoder呢其实非常简单了也是很早之前的技术了大概意思就是说呢你给定一个输入x 然后我过一个这个编码器然后就能得到一个特征这个特征的维度呢一般都会小很多所以说我们也管它叫这个bottleneck 然后再从这个bottleneck开始呢我们过一个这个解码器然后最后得到一个图像然后这个训练的时候目标函数呢就说我们希望这个图像能尽可能的重建之前的这个x 因为是自己重建自己嘛所以说这也就为什么叫auto-encoder 就是自编码器然后在这个自编码器AE出来之后呢紧接着就出来了一个denoising auto-encoder 就是个DAE 其实说白了它就是先把这个原图呢进行了一定程度的这个打乱比如说变成了一个xc就是corrupted x 然后把这个经过扰乱过后的这个输入呢传给这个编码器然后后续都是一样的我们还是得到了一个bottleneck的特征然后通过解码器然后最后得到一个输出然后我们还是希望这个输出呢能够重建原始的这个x 而不是说去重建这个经过扰动之后的x 这个改进呢证明非常的有用尤其是对视觉这边来说呢就更有用会让这个训练出来的模型非常的稳健也不容易过拟合其实部分原因呢就是说因为图像这边这个像素它这个冗余性太高了所以你即使把原来的这个图片做一些这个污染其实模型还是能抓住它的这个本质然后去把它重建出来的这个呢其实也就有点最近恺明这个MAE的意思对吧也是masked auto-encoder 这个掩码自编码器它在训练的时候呢之所以能够mask掉75%就是这么多的这个图像区域还能把这个图像很好的重建出来也就说明了这个图像它这个冗余性确实是高也就从侧面证明了这种denoising auto-encoder 或者这个masked auto-encoder 它的这个有效性但其实呢不论是AE还是DAE还是MAE 它们主要的目的呢都是为了去学中间这个bottleneck特征的然后把这个特征拿去做一些这个分类检测分割这些任务它并不是用来做生成的

片段1332:35~35:18

原因呢就是其实它这学到的不是一个概率分布我们没法对它进行采样也就说这里这个z 并不像GAN里面那样是一个随机噪声它是一个专门用来重建的一个特征但是呢这种encoder-decoder的形式确实是一个很好的结构那我们怎么能使用这种结构去做这种图像生成呢所以这就有了VAE (Variational Auto-encoder)那VAE呢其实跟AE是非常不一样的虽然它的整体框架看起来还是一个输入进了一个编码器然后得到了一些东西最后出解码器然后最后得到一个输出然后它的目标函数呢还是让这个输出尽可能的去重建原来的这个x 看起来好像一样但其实呢有一个非常重要的区别就是它的这个中间不再是学习一个固定的这个bottleneck的特征了而是去学习了一个分布在这里呢作者假设这个分布是一个高斯分布所以说高斯分布呢就可以用这个均值和方差来描述那具体来说呢就是当我们得到从这个编码器出来的特征之后呢我们在后面加一些FC层然后就去预测一个这个均值和方差然后得到对应的这个均值和方差之后呢我们就用这个公式去采样一个z出来那这样呢 VAE就可以用来做生成了因为在你训练好这个模型之后呢你完全可以把前面这个编码器呢直接扔掉然后你这里是个z呢就是一个可以从这个高斯随机噪声里去抽样出来的一个样本然后你给这个解码器你就能生成一张照片了然后呢因为VAE这里预测的是一个分布那从贝叶斯概率的角度来看呢那前面的这一过程就是给定x得到z的这个过程其实就是一个后验概率然后学出来的这个distribution呢其实就是一个先验分布那至于后面这块就是给定了z 然后去预测一张图片x的时候呢它其实就是likelihood 那其实也就是说我们这里做的呢就是maximize likelihood 那从数学上看呢就干净很多优美很多而且VAE呢也有一些很不错的性质那比如说因为它学的是一个概率分布它是从这个分布里去抽样所以说它生成的这个图像多样性呢就比GAN要好得多这也就是为什么大家接下来做了很多基于这个 VAE的这个后续工作包括VQ-VAE还有VQ-VAE-2 以及再后来的这个DALL·E第1版模型其实也就是在VQ-VAE的基础上做的那既然说到了VQ-VAE 那接下来我们就来讲一下那这里呢上面就是我们刚才说过的这个VAE 然后下面呢就是我们马上要说的这个VQ-VAE 其实呢整体上看来也差不多那VQ-VAE这里的含义呢就是vector quantised 就是把这个VAE做量化那为什么要这么做呢其实原因很简单那即使现实生活中

片段1435:23~38:04

你的所有的这些信号包括声音然后图像可能都是连续的或者说你大部分任务可能都是一个回归任务但事实呢真的当你把它表示出来真的当你去解决这些问题的时候其实我们都把它离散化了图像呢也是变成像素了语音呢也都抽样过了大部分工作的比较好的模型呢也都是分类模型又都从回归任务变成分类任务所以这里呢也一样如果用之前的这种VAE的方式呢它就不好把这个模型做大这个图像的尺寸呢做大而且这里这个分布呢也不是很好学所以说取而代之的呢是不去做这个分布的这个推测而是呢用一个codebook去代替了这个codebook 这里面呢其实你可以把它理解成一个比如说聚类的中心这个codebook的大小呢一般是K乘以D 然后K呢一般是8192 然后呢D呢一般可能就512或者768 意思呢就是有8,192个长度为D的这么个向量在这个codebook里也就说呢我们有8,192个聚类中心然后这个时候呢如果有一个图片经过编码器得到了一个特征图这个特征图呢是有长宽的 hw这种长宽的特征图然后呢我们就把这个特征图里的向量去跟这个codebook里的向量呢去做对比然后看看它跟哪个聚类中心最接近然后呢我们就把那个最接近的聚类中心的那个编码存到z 这个矩阵里所以说这里面可能就是一些编号比如说1或者100之类的那一旦做完了这个聚类的分配那我们就不用之前的这个特征f了取而代之的是呢我们把这个index对应的特征比如说这里这个编号为1 那我们继续把这个编号为1的向量拿出来放到这而如果编号为10 那我们就把编号为10这个向量拿出来放到这生成一个新的特征图叫做fq 就是quantised feature 经过量化后的这个特征那这个量化后的特征呢就非常的可控了因为它永远都是从这个codebook里来的它不是一个随机的东西所以说呢优化起来就相对容易那一旦你有了这个特征图其实跟之前所有的这种auto-encoder 或者VAE 就差不多了你就通过一个解码器然后就去重构一张图片那这个目标函数呢还是让这个x'尽量跟这个x去保持一致这样呢就完成了整个VQ-VAE的训练 VQ-VAE其实非常有用它不光是后来呢,用到DALI这个项目里头还用到了视觉这边用来做自监督学习比如说BEIT这篇论文它就是把DALL·E训练好的这个codebook拿过去然后把这个图片呢全都quantise成这样的特征图然后拿这个要去做ground truth 自监督的训练一个视觉网络最近呢BEIT又出了VL-BEiT 就是vision language的BEIT 也是大概的思路只不过呢是用一个Transformer编码器去做多模态的任务

片段1538:08~40:45

但其实说完了VQ-VAE 我们会发现它这里学习的呢又是一个固定的codebook 这也就意味着它又没办法像VAE 这样去做这种随机采样然后去生成这个对应的图片了准确说呢它不像是一个VAE 它更像是一个AE 它学的这个codebook和这个特征呢是拿去做这种high level的任务的也就做分类、检测的那如果想要它做生成怎么办呢那其实对于VQ-VAE来说我们还需要单独再训练一个prior网络那在VQ-VAE这篇论文里呢作者就是又训练了一个pixel CNN 当做这个prior网络从而能够利用已经训练好的这个codebook 去做这种图像的生成然后在VQ-VAE之后呢又有了VQ-VAE-2 那其实这个呢就是一个简单的改进它呢首先把这个模型变成层级式的了它不仅做这种局部的建模而且做全局的建模还加上了这种attention 对模型的表达能力变强了同时呢它还根据这个codebook 又去学了一个prior 所以这个生成的效果呢也非常的好然后OpenAI一看哎这个很合适对于VQ-VAE来说呢它们就是先训练了这么一个codebook 然后又训练了一个pixel CNN 去做这种生成那pixel CNN呢其实是一个auto regressive 就是一个自回归的模型那还有什么模型是自回归呢那就是OpenAI的看家本领GPT系列了对吧那OpenAI就说那我就把这pixel CNN换掉换成GPT 不就能做一个很好的图像生成了吗而且既然language那边又做的这么好那为什么不想个办法用文本去引导这个图像生成呢所以呢就有了DALL·E DALL·E呢其实从模型上来看是非常简洁的如果你有一个图像文本对这个文本呢先通过BPE编码得到一个特征这个特征呢有256维然后我还有一个图像这图像是256*256 然后我就经过一个VQ-VAE 这个VQ-VAE呢其实就是像上面这种方法一样训练好的一个codebook 在DALL·E里呢它就是直接拿过来用所以DALL·E呢也是一个两阶段的图像生成器总之呢的把原来的图像变成这个图像特征之后呢它这个维度就下降了很多就从这个256*256变成了32*32 所以最后呢一共就有1,024个token 那最后呢把这个文本特征和这个图像特征直接连接起来就变成了一个有1,280个token的一个序列那接下来就没什么好说的了无非就是把这个序列扔给一个GPT 然后呢把该遮住的地方遮住然后让GPT模型去预测一个就好了那至于推理呢我们只需要提供一个文本然后这个文本呢变成这个文本的特征然后用这个文本的特征呢直接用自回归的方式去把这个图像生成出来当然了DALL·E的论文呢还有很多的细节比如说会生成很多很多的图片

片段1640:52~43:38

那到底选哪一张呢其实它会用这个CLIP模型去做一个这个排位然后把生成出来的图片跟这个文本最贴切的那个图片挑出来当做最后的生成图像还有很多很多的这个工程细节其实DALL·E里有将近一半的篇幅都在写怎么才能把这个12个billion 那也就是120亿这么大的参数训练起来还有就是他们怎样去收集了一个特别大的数据集能够支撑训练这么一个模型所以说呢是沿袭的GPT系列工作的特点那就是大力出奇迹那说了40多分钟我们才讲到了今天的主角diffusion model 叫扩散模型那这个扩散模型到底是什么呢其实从概念上来看这个过程非常的简单扩散模型呢就是假设说你有一个图片 X0 这就一张正常的图片然后假设呢我们往这个图片里去加噪声比如说每一步呢我都往里加一个很小的一个正态分布的噪声然后得到了这个X1 那这个X1呢其实就是在X0的基础上比如说多点了几个杂的点然后呢我再给它加个噪声然后接着加一直加到最后比如说我一共加了t次那如果这个t呢特别特别的大如果是无穷无尽的话那最终它就会变成一个真正的噪声它就变成了一个正态分布了或者更专业一点呢就是叫一个各向同性的正态分布然后整个这个过程呢就叫做forward的diffusion 就是前向扩散过程那大家可能会想为什么非要叫扩散模型呢其实这个名字呢是来自于热力学的启发就是thermodynamics 它们那边就有一个名词叫做diffusion 在热力学里呢它基本描述的过程就是说如果你有一些物质有高密度的和低密度的那这个高密度的物质呢就会慢慢的向那个低密度去做这种扩散比如说你喷了个香水这个香水呢就会慢慢扩散到整个房间最后呢达到一种平衡那所谓的平衡呢也就是我们这里最后提到这个各向同性的一个正态分布就是趋近于随机噪声所以说呢视觉这边就沿用了这个名字那还是叫它diffusion model 那这个跟图像生成有什么关系呢那其实如果你反过来想那如果我现在的输入是一个随机噪声也就是GAN里面的那个z 那我现在如果能找到一种方式或者训练一个网络能够慢慢的把这个噪声一点一点这样再恢复回来恢复到最初的这个图片它不就可以做图像生成了吗那事实上呢扩散模型就是这么简单它就是通过这个反向过程去做这个图像生成的如果我们现在去随机抽样一个噪声比如说是这个Xt 或者是之前的任意一步那我呢就训练一个模型把它从Xt变到Xt-1 然后我再用同样的模型去把Xt-1变成Xt-2 然后一步一步这样倒退回来所有这里使用的模型呢

片段1743:45~46:19

都是共享参数的就只有一个模型只不过呢你要抽样生成很多次所以这可能也是现在还是个扩散模型一个非常大的一个不足就是说呢它训练上跟别的模型比起来呢也是比较贵的那在推理的时候呢那就更别说了它是最慢的一个因为像GAN的话我只要训练好了这个模型那我接下来给它一个噪声它唰就给我出来一张图片那非常的快就做一次模型forward就可以了可是如果对于扩散模型来说尤其是对于最原始的那个扩散模型来说的话一般呢这个t是选择1,000步那就是说如果你随机选择了一个噪声那就说你要做1,000次forward 一点一点把这个图像恢复出来那这个开销是远远大于其他生成模型的那总之呢我们先撇开这个推理速度不谈我们先来看一下一般这个reverse diffusion过程中使用的这个模型长什么样因为我们可以看到这个扩散模型的输入输出始终是这个图像就是说它这个大小呢始终不变所以在这种情况下呢 diffusion model 就采取了一个非常常见的一个模型结构就是U-Net U-Net呢就是一个CNN 先有一个编码器一点一点把这个图像压小然后再用一个解码器一点一点把这个图像再恢复回来那前后的这两个图像尺寸大小呢是一样的然后为了让这个恢复做得更好呢这个U-Net里还有一些这种skip connection 就直接把这个信息从前面推过来这样能恢复一些细节而且后来呢对这个网络结构还有一些改进那比如说给这个U-Net里也加上这种attention操作会让这个图像生成变得更好而且其实说白了这里面这个模型呢也不一定要用U-Net 你也可以用其他的但是大部分这个扩散网络呢都是用了这个U-Net 那说完了扩散模型大概是怎么工作的又说了扩散模型的这个网络结构那接下来呢就说一下过去两年之间这个扩散模型的这个发展历程其实扩散模型早在15年甚至有可能更早的时候就已经提出来了但当时呢只是一个想法并不能做到很好的这个图像生成这可能也就跟20年前深度学习一样想法已经有了只不过缺了很多很多的必要因素导致它不能训练的很好一直呢到2020年6月也就是整整两年前出来了一篇论文叫做Denoising Diffusion Probabilistic Model 也就是DDPM DDPM呢对原始的这个扩散模型呢做了一些改进把这个优化过程呢变得更简单了那最重要的两个贡献呢一个就是之前呢大家都觉得是要用这个Xt 去预测这个Xt-1 是做这种图像到图像的转化但是呢DDPM就觉得这个呢可能不好优化

片段1846:27~49:07

我们要不要不去优化这个图像的转换我们能不能去预测这个从Xt-1到Xt 我们这个噪声是怎么加的我们只去预测这个噪声行不行那这个呢其实就有点ResNet的意思本来我可以直接用x去预测那个y 但是现在呢你说直接预测y太难了应该把这个问题理解成y等于x 加上一个residual 我们只去predict那个残差residual就可以了那这里面也是一个意思我们不去预测这个Xt-1 我们去预测它加了多少这个噪声一下就把这个问题给简化了那具体把这个网络结构画出来呢就是说如果我们用刚才讲过的这个U-Net的这个结构那之前呢这个输入呢就是Xt这个图片那这个输出呢就是我们想去预测这个t-1时候的X 那在DDPM这篇论文里呢它就不去预测这个t-1时候的X 而是去预测它添加的这个噪声那这个U-Net模型的输入呢除了当前时刻这个Xt 其实还有一个输入呢叫time embedding 主要呢就是用来告诉这个U-Net的模型现在到了反向扩散的第几步这里这个time embedding的形式呢其实就跟Transformer里用的那个位置编码一样它呢也是一个正弦的位置编码或者是一个傅里叶特征至于这个time embedding 怎么加到这个模型中来有很多种方式了那有的呢是直接加有的呢是拼接起来还有的呢就是用更复杂的手段把它加到网络模型里去它给模型带来的提升呢也是相当明显的那这里为什么要加这么一个time embedding呢其实还有一个原因就因为这里的这个U-Net模型它全都是共享参数的那你怎样让它根据不同的输入而生成不同的输出最后呢从一个完全的一个随机噪声变成一个有意义的图片呢这个还是相当难的一件任务我们希望这个U-Net这个模型在刚开始的这个反向过程之中呢它可以先生成一些这个物体的大概轮廓一些很粗糙的就是coarse的这个图像不需要很清晰也不需要很写实那只要有那个意思就可以了然后随着这个扩散模型一点一点往前走然后到最后快生成这个逼真的图像的时候呢这个时候我们希望它学到一些高频的一些信息特征比如说物体的边边角角还有物体的一些细小的特征这样呢就会让生成的图片更加的逼真但事实上我们这里用的所有的这个U-Net模型都是共享参数的所以这个时候呢就需要有这么一个time embedding 去提醒这个模型我们现在走到哪一步了现在这个输出我是想要糙一点的还是想要细致一点的所以加这个time embedding 对整个图像那个生成和采样过程都很有帮助那具体到这个目标函数上来说如果我们现在给定了Xt

片段1949:14~51:53

我们要去预测这个Xt-1 我们要算的loss呢就是我们已知的这个噪声和我们现在预测出来的这个噪声的差值那对于ground truth的这个噪声来说呢我们是知道的呀因为在这个正向的扩散过程中呢每一步添加的噪声都是我们自己加的都是一个固定的过程所以说是已知的那后面呢才是我们预测的那这里这个f函数呢其实对应的就是下面的我们这个U-Net 网络结构那这个Xt呢就是我们的输入Xt 然后这个t呢就是我们这里输入的这个time embedding 然后呢通过计算这个简单的目标函数我们就能把DDPM这个网络训练起来了然后DDPM呢还做了第二个贡献具体来说呢就是如果你要去预测一个正态分布呢其实你只要学它这个均值和方差就可以了然后作者这里发现了其实你只要去预测那个均值就可以你方差都不用学你这个方差呢只要变成一个常数最后这个效果就已经很好了所以这又再次降低了这个模型优化的难度所以DDPM就工作的很好第一次能够用这个扩散模型生成很好的图片算是扩散模型这边的这个开山之作那大概介绍完了扩散模型和DDPM 其实这里可以做个总结 DDPM跟这个VAE 的模型其实还是有很多相似之处的比如说呢你也可以把它想象成是一个编码器解码器的结构只不过呢在这个扩散模型中它的这个编码器一步一步这样走过来走到中间的这个z 它是一个固定的过程而对于VAE来说呢它的那个编码器是学习那第二个不同呢就是说对于扩散模型来说它的每一步的这个中间过程跟刚开始的这个输入呢都是同样维度大小的但是呢对于一般的这种AE VAE这种编码器解码器的结构来说它那个中间的那个bottleneck特征往往是要比输入小很多那第三个区别呢就是对于扩散模型来说它有这么步数的一个概念它从这个随机噪声开始要经过很多很多步才能生成一个图片所以它有这个time step time embedding这些概念而且呢在所有的这个time step里它的这个U-Net模型结构呢都是共享参数的而在VAE里呢其实就不存在这一点那这个扩散模型一旦做work了之后呢大家的兴趣一下就上来了因为它在数学上呢特别的简洁美观而且因为不论是正向还是逆向它都是这种高斯分布所以也能做很多推理证明有很多很不错的性质所以之前呢大家可能就担心那它不能在真实的数据集上去工作的很好它可能不能适用于很大的模型或者很大的数据集但结果呢现在有人把它做work了那OpenAI的人也就是DALL·E 2 我们之前说过的二作和三作呢

片段2051:57~54:37

其实就立马来着手研究这个问题了他们呢就仔细钻研了一下这个DDPM 提出了一些改进然后就变成了这个improved DDPM 大概就是在同年20年的年底放到arXiv上他这边呢做了几个改动其中一个改动呢就是DDPM里说这个正态分布的方差呢不用学就用一个常数就可以了但是呢他们觉得如果你能把这个东西学了那可能效果会更好然后他这边呢就去学了然后确实呢在后面的取样还有这个生成效果上的都不错第二个呢就是他把怎么添加噪声的这个schedule改了从一个线性的schedule 变成了一个余弦的schedule 发现也工作的不错那这个呢我就不细说了理解上呢你可以去跟那个学习率的schedule去做一个对比也是从线性到余弦然后最后一个贡献呢就是他们简单的尝试一下如果用这个大模型这个扩散模型会表现的怎么样结果发现呢这个扩散模型scale得非常好也就说如果给它上更大的模型它就会给你更好的图像生成结果那这对OpenAI来说那无疑是个非常好的消息所以二作和三作呢立马着手去做这件事所以紧接着几个月之后就出来了这一篇论文就是Diffusion model beats GAN 就是扩散模型比GAN强那在这篇论文里呢首先呢上来就是说把模型加大加宽然后增加自注意力这个头的数量attention head 还有single-scale的attention不够用了我们就上multi-scale的attention 所以总之就是把模型变得又大又复杂然后呢他还提出了一个新的一个归一化的方式叫做adaptive group normalization 就是根据这个步数去做这种自适应的归一化发现效果也非常不错而且在这篇论文里呢作者还使用了一个叫 classifier guidance的方法去引导这个模型做采样和生成不仅让生成的这个图片更加的逼真而且也加速了这个反向采样的这个速度论文中说他们可以做到就做25次采样就能从一个噪声生成一个非常好的图片所以说是加速了相当多那这里说的classifier guidance方法是什么然后后续的这个GLIDE的模型和DALL·E 2里用的classifier-free 的guidance方法又是什么呢那在这个扩散模型能打败GAN的这篇论文出现之前呢其实扩散模型生成的这个图像看起来已经非常不错了也很逼真但是呢它就在算这些inception score 就IS score或者FID score那些分数的时候呢它比不过GAN 如果光让大家看你生成这个图的话那大家可能就觉得你生成这些图是不是你挑的呢这个结果呢就不够那么有信服力而且这个呢当然也不好审稿也不好中论文所以还是把这个分能提上来那是比较关键的

片段2154:42~57:25

同时呢这个扩散模型这个采样和生成图片呢过程又这么慢所以大家是在想怎么能用一些额外的帮助或者说找一些guidance 找一些这种额外的指导来帮助这个模型进行采样和学习呢所以呢就借鉴了一个之前很常用的一个技巧叫做这个classifier guided diffusion 那这里呢我们先再次把这个反向扩散过程画一下那现在呢最开始是Xt 也就是最后时刻也就更偏向于噪声的那个时刻而X0呢是最开始这个图片所以说这个呢是一个反向扩散的过程那我们也刚才说了在这个反向过程中呢给定一个Xt时刻的输入我们通过一个U-Net的网络就得到了Xt-1 然后呢不停的通过这个U-Net 取样生成取样生成最后得到这个X0 那classifier guided diffusion 的意思是什么呢就说在我们训练这个模型的同时我们再去训练一个这个分类器就是一个简单的图像分类器这个分类器呢其实在很多论文里就是在ImageNet上训练的只不过呢他把ImageNet的图片呢都加了很多噪声因为对于扩散模型来说呢它的输入始终都是加了噪声的这些图片跟真实的ImageNet的图片是很不一样的所以说你必须从头再去训练这么一个图片分类器那这个分类器的作用是什么呢就是说当我有这么一个图片Xt之后呢我把它直接扔给这个分类器然后我就能去看它分类的对不对我就能算一个交叉熵目标函数对应的呢就会得到一些梯度然后我用这个梯度去帮助这个模型接下来进行采样和图像的生成那这个有什么好处呢因为其实这里的梯度呢就大概暗含了当前这个图片它里面到底有没有一个物体或者说它现在生成的这个物体真不真实那通过这种梯度的引导呢其实就是告诉这个U-Net 我现在生成的图片呢要看起来更像某一类物体不是说意思到了就行这个物体的形状颜色纹理各种细节都尽量的要跟真实的物体去匹配上所以说在经过了这个classifier guided diffusion操作之后这个生成的图片呢就逼真了很多一下在这些IS或者FID score上呢就大幅度的提升了也就是在这篇 diffusion model beats GAN的论文里扩散模型呢第一次在这些分数上而超越了之前比较好的一个GAN模型就是big GAN 虽然文章里说通过这种方式他相当是牺牲了一部分的多样性然后就换取了这个生成图片的这个写实性那其实呢这个取舍还是比较好的因为它的多样性还是比GAN要好然后现在呢生成的图片的逼真程度也比GAN要好那这样一下子呢就奠定了扩散模型在图像生成里的地位那这个扩散模型火了之后而且大家看到哎

片段2257:31~1:00:11

这种guided diffusion非常的有效那除了这种最简单比较原始的这种classifier guided diffusion之外我们还能用什么当做这个指导信号呢那首当其冲呢大家就想到我们能不能把一个简单的这个图像分类器换成一个CLIP模型呢那如果换成CLIP模型之后这个文本和图像不就可以联系起来了吗那这样呢我们不光是可以利用这个梯度去引导这个模型的这个采样和生成我们甚至可以用这个文本去控制这个图像的采样和生成所以在这个方面呢也有一些工作而且确实也是比较有效的那当然了分别在图像和文本上呢也有很多这个引导的工作比如说在图像这边呢你不光是可以利用这个图像的重建去做这种像素级别的引导你还可以去做这种特征层面的引导你还可以去做这种图像风格方面的引导只不过就用一个gram matrix就可以了那文本这边呢你也可以用那些已经训练的很好很大的一些语言模型去做引导效果呢也是非常的好那所有的这些引导呢其实在这个目标函数里呢都是后面的这个y 就说我这个模型的输入不光是xt和t了同时我还有一个condition 那至于这个条件是什么那就根据你的应用来选了然后再加了这个条件之后呢就能让这个图像的采样和生成变得又快效果又好但是呢所有这一系列的方法它都有一个缺陷就是说它真的都是又用了另外一个模型去做这种引导要么呢我们拿一个直接pre-train好的模型要么呢我们就还得去训练这么一个模型不仅成本比较高而且这个训练的过程呢也不可控那所以说呢这就引出来了后续的一篇工作他呢就提出来一个非常有效的技巧叫做classifier-free guidance 那意思就是说呢我不想要这些classifier 我还能不能找到一种指导信号去让这个模型的生成变得更好呢简单来说呢就是他在训练模型的时候生成了两个输出一个呢是在有条件的时候生成了一个输出一个是在没有条件的时候生成了一个输出那举个例子比如说你训练的时候呢用的是图像文本对那这个时候呢你想用文本去做你的这个guidance信号那也就是说这里这个y就是一个文本然后你在训练的时候呢用这个文本y去生成了一个图像然后呢随机的把这个条件去掉就说我不用这个文本我用一个空集就是一个空的序列再去生成另外一个输出那假设我们现在有一个空间那刚才生成的两个图片呢分别是没有用这个条件的生成了一个X 用了这个y这个条件呢生成了一个Xy 那我们就知道有一个方向能从这种无条件最后得到的输出

片段231:00:17~1:03:03

成为有条件得到的这个输出通过训练呢我们最后就会知道它们两个之间大概的这个差距是多少那等到最后去做这种反向扩散去真正做图像生成的时候呢当我们有了一个没有用条件生成的这个图像输出的时候我们呢也能做出一个比较合理的推测能从一个没有条件生成的X 变成一个有条件生成的X 这样呢就摆脱了这个分类器的限制所以说叫classifier-free guidance 但是这个方法呢其实在模型训练的时候也是非常贵的因为扩散模型本来训练就已经很贵了结果使用这种classifier-free guidance的方法呢那在训练的时候还要生成两个输出一个有条件的一个没条件的所以又增加了很多训练的成本但总之呢 classifier-free guidance一经提出大家就觉得它真的是一个很好用的方法所以说不光是在GLIDE这篇论文里用到了而且之后的DALL·E 2呢也用到了还有最新的Imagen呢也用到了而且这几篇论文里呢都说这是一个非常重要的技巧所以感兴趣的同学呢可以再去看一下细节总之呢在融合了之前这么多技巧之后呢 GLIDE模型而终于是一个用扩散模型能够做很好的这种根据文本去生成图像的任务了它呢只用了3.5 billion 的这个参数但是生成的效果呢就直逼之前的DALL·E模型而DALL·E模型呢是有12 billion的就比它大四倍但是GLIDE模型呢不论是从分数上还是从这个感官上得到的这个图片效果都比DALL·E好那OpenAI一看哎这个方向确实靠谱那我也就不顺着DALL·E 也就是DALL·E 1的那套系统用VQ-VAE去做了我接下来呢就用扩散模型来做了所以他在这个GLIDE的基础上呢又加了很多东西比如说在前面加了一个prior 比如说他又使用了这种层级式的生成就从64到256 再从256到1024 就使用了很多最新的一些技巧最终呢就成为了DALL·E 2 那做了一个小时的铺垫那接下来呢我们回到DALL·E 2的原文我们会来先看一下他这个主体的方法部分很短就一页多然后接下来看一下DALL·E 2能干什么他列了很多很有意思的应用然后最后呢还有一些数值上的结果那作者上来先说他训练数据集长什么样他说他们的这个训练数据集里面呢也是这种图像文本对就跟CLIP模型一样那如果我们给定一个图片x 然后我们用这个zi 去表示这个CLIP出来的图像的特征然后用这个zt 去代表这个CLIP出来的文本特征 i就代表image t就代表text 那整个这个DALL·E 2的网络结构呢就被分成了两个部分我们之前在引言的时候也讲过一个呢是prior模型一个呢是decoder的模型

片段241:03:09~1:05:48

那prior模型呢就说根据这个文本y 我去生成一个图像的这个特征zi 然后这个编码器的输入呢 (应为解码器)就是这个zi 有的时候呢也会带上这个文本y 但其实也可以不要总之呢就是通过这个编码器 (应为解码器) 那么把这个zi呢恢复成一个图像x 这样呢就完成了从文本到图像的这个过程那可能跟刚才我们讲引言时间隔得也比较久了那我们就再来回顾一下这个图2 图2里呢作者就说DALL·E 2这个模型它相当是先是有一个CLIP模型然后再训练这个DALL·E 2的图像生成模型那一旦你这个CLIP模型训练好之后呢你任意给定一个文本它就可以通过这个文本编码器去得到一个文本特征然后呢我就用这个prior模型把文本特征呢变成一个图像特征然后再通过一个解码器就把这个图像特征变成了几个图片所以是一个两阶段的图像生成器完成了最后这个文本到图片的生成过程然后作者接下来呢还用公式给你讲了一下我为什么能用一个两阶段的方式来实现这个东西那首先刚开始这个公式的意思是说给定一个文本我要去恢复出来最后这个x 那其实呢它可以先写成这种概率的形式就是给定一个文本我去生成x和zi 那zi是什么呢 zi是这个图片的特征它呢跟这个图片本身是一对一的关系因为你这个CLIP模型训练好之后它的参数是锁住的嘛所以你给定一个图片就会生成一个固定的zi 所以说这里呢zi和x就是对等的所以说这个概率呢是可以写成这里这种概率然后作者这里再利用chain rule 就能把这个概率写成这种形式那写成这种形式之后呢我们就可以明显看出来这个呢就是给定文本去生成zi这一步就是prior 然后呢给定y和zi之后用这个图像embedding去生成x 就是decoder 所以作者这里其实就是想跟你说我做这种两阶段的图像生成不是没有依据的从概率上来讲呢是完全行得通的那既然两阶段的设计是合理的作者接下来呢就分别去讲了这个decoder和这个prior 那在decoder这边呢我们之前也说过它其实就是一个GLIDE模型的变体改动呢并不大首先呢它用了这种CLIP模型的guidance 那我们之前也说过有用classifier guidance 有用CLIP guidance 他们这里呢就用了CLIP guidance 只不过使用的形式呢在这个具体操作上稍微有一些变化这里我就不细说了因为如果不看代码的话这里描述的技术细节呢其实都不太好说出来然后第2段呢作者就说他们也用了这种classifier-free guidance 具体来说呢他们的这个guidance信号呢要么是来自于这个CLIP模型

片段251:05:52~1:08:27

要么是来自于这个文本所以在这里呢他就随机比如说有10%的时间呢他就把这个CLIP的特征呢设成0 还有呢就是说在训练的时候有50%的时间呢就把这个文本特征呢直接就扔掉了所以就是说在DALL·E 2这篇论文里他基本是把能用的全都用了就是包括CLIP guidance 还有这种classifier-free guidance他全都用了其实classifier-free guidance就像之前说的一样它是比较贵的一个操作但是OpenAI呢向来是不怕贵效果怎么好怎么来所以说在做完classifier-free guidance以后呢第三段他又做了这种级联式的生成就是说我怎么能生成这种1024的高清大图去吸引公众的目光呢所以我就先从64*64变成256*256 然后我再训练一个模型从256*256呢生成这个1024*1024 那在这里呢为了训练的稳定性作者在训练的过程中呢还加了很多这个噪声然后这里还有一个比较值得注意的点呢就是我们听起来好像这些大模型应该是Transformer 但其实呢就像我们说了一样这个扩散模型呢大部分时候是U-Net 是一个CNN的结构所以作者这里也强调他们呢只是用了这种spatial convolution 就是用了这个卷积没有用这种attention layers 所以说在接下来做推理的时候呢它可以用在任何的一个尺寸上而不需要担心说你这个序列长度必须得保持一致所以说训练出来这个扩散模型是直接可以去生成那种更清晰的图片的那说完了解码器接下来我们看一下这个prior模型 prior模型的作用呢就是说我给定一个文本我怎么能去生成一个图像的特征zi 这样呢我好把这个zi输给这个解码器从而你能恢复出来这个图片那作者这里呢尝试了两种方案就说要么呢用这种auto regressive 自回归的模型去做这个prior model 要么呢就用这种扩散模型去做这个prior model 那自回归模型这里呢其实就跟DALL·E或者GPT这些就很像就说反正我的输入呢是文本特征然后呢我也有从CLIP那篇来的图像特征那我就把这个图像呢遮住然后我就去自回归的预测就行了但是呢其实OpenAI从CLIP这篇论文就说过这种自回归的模型这种预测性的模型呢它的这个训练效率太低了就是为了让这个训练呢变得更快速他们还使用了很多技巧比如说PCA降维之类的那因为最后呢他也没有讲太多的这个结果所以这里呢我们就不太细说这个自回归的这个prior模型我们主要呢就是来看一下这个diffusion prior长什么样那这里值得注意的一点呢就是在这一段里作者这里说不论我们是用这种自回归的模型还是用这种扩散性的模型

片段261:08:32~1:11:13

我们全都用了这种classifier-free guidance 因为发现效果好这个classifer-free guidance 这个技术它确实是很有用所以说接下来Imagen里也用了而且也专门用一个段落证明了它的有效性所以说做生成的同学都可以来试一试那对于扩散prior来说呢作者这里他训练了一个Transformer的decoder 那因为这里呢它的输入输出是embedding 所以说用U-Net就不太合适直接上Transformer 去处理这个序列就可以了然后这里呢模型的输入其实相当多从这个文本到这个CLIP的文本的特征还有这个time step就这个步数的embedding 还有呢就是加过噪声之后的这个CLIP的图像特征还有Transformer自己的本身的一个embedding 比如说之前我们说过那种cls token 然后最终的这个embedding特征呢就被拿去预测这个没有加过噪声的CLIP图像特征然后模型别的方面还有训练技巧就跟之前的这个扩散模型没什么区别了有一点比较有意思就是自从DDPM提出来去预测这个噪声之后呢大家呢就一直都是去预测这个噪声就像我们刚才说的去预测那个残差发现训练的又快又好但是作者这里发现呢对于这种特征的重建或者对于他们先要处理的这个任务来说呢直接去预测这种没有被污染过的图像特征是要比之前那种预测噪声要来的好的所以他这里的目标函数的这块呢就不是之前的那个噪声了反而就是CLIP出来的这个图像特征zi 那其实讲到这呢文章的主体方法部分呢就说完了图像生成这边呢确实各种技巧非常多经常连一个模型总览图都很难画出来所以如果不去直接看代码是很难对这个论文有一个整体的把握而且这些技巧呢在我们说完这么多之后呢我们也会发现其实它有的时候有用有的时候呢也没用比如之前你说这种预测噪声好使但是DALL·E 2这里呢又不去预测噪声直接去预测zi了还有呢比如说 DALL·E 2这篇论文他做的是一个两阶段的图像生成那实际上呢 Imagen里面直接上一个U-Net 就把这个图像生成解决了更简单效果也很好所以说也不一定非要两阶段那还有呢CLIP模型还有DALL·E 2 都说这种自回归的模型太贵了然后训练太不高效了但是呢也就在我录视频的这两天里 Google了又出了一篇新论文叫做Parti 用Pathways模型然后去做这种自回归的这个文本图像生成效果呢也是直接超越了DALL·E 2和Imagen 所以到最后看下来呢其实都是大力出奇迹也就说只有scale matters 其他的东西呢不论是模型还是训练的技巧都好商量那说完了方法接下来我们就来看一下

片段271:11:18~1:13:47

DALL·E 2具体能干什么那文章里这个图3举的第一个例子呢其实就是说DALL·E 2 能够根据一张图片然后去生成很多很多的类似的这个图片然后生成图片里的这个整体的这些风格呢都跟原始用户提供的图片呢是一致的而且呢这个物体也都是一致的比如说有钟表有沙漠然后有一棵树就是语义信息呢大体是不变的但是呢那些不太关键的信息比如说这个图片整体的布局还有这些钟表的各种样式还有天上这种云呐每一张生成的图片呢都会不一样那在另外一个例子里也就是OpenAI自己的这个LOGO里呢他把这个LOGO输给DALL·E 2 DALL·E 2也能返回来各种各样的LOGO 那总体而言呢这个风格也是很一致的背景都是种五颜六色的色彩那前景呢都是这种交织在一起的这种白色的线条当然了这种交织的这个模式每个跟每个都不太一样那DALL·E 2为什么能做到这一点呢那其实看这个图2这个总览图呢就能知道了当用户给定一个图片的时候呢它就能够通过 CLIP预训练好的这个图像编码器去得到一个图像特征然后呢它把这个图像特征变成这个文本特征然后再把这个文本特征呢输给下面的prior模型去生成另外一个图像特征然后这个图像特征呢就会生成新的这个图片也就跟这里的这两个柯基一样都是一个柯基在吹小号那事实上呢这个柯基的这个朝向还有这个背景都改变了所以这个应用呢其实挺好玩的很方便这个设计者去做各种各样的设计那比如说现在呢我们要给一个公司去设计这么一个LOGO 我们可能有一些大概的想法但是最终呢也没有定稿那我们呢就可以把这个大概的想法先画成一个图片然后我们就扔给DALL·E 2 DALL·E 2呢就能返回给我们很多很多不一样的图片我们可以从中呢再选一个我们比较喜欢的然后再把它扔给DALL·E 2 DALL·E 2又会给我们返出来很多很多不一样的图片所以呢你就不用自己去想了你只要挑图就可以大大简化了这个设计的过程那另外一个比较好玩的例子呢就是说可以做这种图像的内插那在图4里呢作者其实说给了两张图片这两张图片呢分别有自己的这个图像特征那这个时候呢我们在这两个图像特征之间去做这种内插当插出来这个特征更偏向于这个图片的时候呢生成出来的图像呢就像这样更多的这个风格还有里面的物体呢就是跟这个左图比较类似但是随着这个内插的这个比例呢越来越偏向这个右图那生成出来的这些图像呢主要的物体就是右面的比如说这些狗还有房子之类的

片段281:13:52~1:16:33

就没有这些月亮和星星的物体而且也不像梵高这样画的这种风格那下面这个例子呢也比较有意思左边呢是一个橘黄色的也不知道是个包还是一个瓷器右边呢是一个形状很诡异的一个几何物体然后随着在这两个图像的特征之间进行插值这个颜色呢越来越就从橙色就变成了黑白而且样式呢也从一个固定的一个结构变成了这种很诡异的这种几何形状那前面那个图像内插的例子呢是在两个图像之间哎去做这种内插那接下来呢作者举的这个例子就是在图像和文本之间去做这个内插比如说呢这里面就提供了一个文本原来的文本呢只是说这是一个猫的图片但现在呢他说这是一个动画版的这个猫而且描述的呢是一个超级赛亚猫当模型在这两个文本的特征之间去做这个插值的时候呢生成的图片呢就逐渐也在改变比如说刚开始呢就是一个正正经经的猫那慢慢呢这头发就炸起来最后变成超级赛亚猫了那像第二个例子里从一个维多利亚风的一个建筑风格最后就变成了一个现代版的一个建筑还有呢就是从一头成年的雄狮变成了一个幼年的小狮子最后一个例子呢就是从冬天的景象变成了一个秋天的景象那这个应用当然也是很有意思如果能再做的更细致一点那其实就有点直接输入文本这个模型就能替你去PS一样那以后再P图那就太简单了我想改哪我就直接给模型输入几句话我想把中间这个人去掉我想让我的腿长一点我想让我的脸更白一点你只要这么打字就可以了再也不用去学Photoshop了当然论文还举了几个别的例子我们这里呢就不一一列举了我们最后直接来看这个数值对比的表格那一般呢在图像生成这边大家就是在这个MS-COCO数据集上去比较这个FID的分数那我们主要来看这个表格的下半部分也就是说做这种zero-shot的FID 分数到底谁最低那我们可以看到之前像DALL·E 其实还在28这个水平 GLIDE呢也就降到了12 降的还是非常多的也就说明这个扩散模型好用然后呢再到他们的这个unCLIP 用AR去做这个prior 或者用这个扩散模型去做这个prior 我们可以发现这个数字方面呢这两个模型都差不多扩散模型呢稍微好一点点而且呢训练上呢也稍微容易一些所以整篇论文呢其实基本上都是在围绕这个扩散的prior 在做这个unCLIP 那毕竟对于图像生成的任务来说呢比较这个分数是一方面最主要的呢还是让大家看这个生成的效果到底如何所以作者接下来呢又列了很多这个图像的对比那从图像生成的结果来看呢这个DALL·E 2呢确实是不错比如说第一个文本呢就有一个绿色的火车

片段291:16:38~1:19:16

沿着这个铁轨开过来了那我们可以看到之前这个DALL·E模型生成的这个绿色火车就非常的像动漫火车这不真实 GLIDE模型呢还不错但这个火车太大了也没有展现出沿着铁轨开过来的感觉但是这个DALL·E 2呢这两个图像都生成的不错然后像后面的这个图像呢有一群大象在这个泥水里玩那我们可以看到DALL·E 2生成这个模型这个大象身上还有反光而且生成的这个细节呢也非常的好像这个滑雪场景里左上角这种太阳这种亮光就跟真的这个照相机照出来的一样非常的逼真而且生成的这些图片呢全都跟这些文本是非常符合的不过当然了这里面呢就举了5个例子当然有可能是作者精心挑选出来的所以说效果呢确实是不错那既然展现了一些比较好的例子作者这里呢在第7节也很好的讨论了一下他们目前 DALL·E 2的这个模型不足和局限性这个呢我推荐大家其实都应该去仔细的看一看这样才知道接下来该怎么去继续提高这个模型比如作者这里说的第一个DALL·E 2的这个局限性呢就是它不能很好的把这个物体和它的这个属性结合起来比如说在这里呢物体呢就是这种方块属性呢就是红色或者蓝色然后现在呢如果我们给一个文本就是说有一个红色的方块在一个蓝色方块上面然后你让这个 DALL·E 2模型去生成一些图片然后再让GLIDE呢也去生成一些图片我们就会发现 GLIDE模型其实还是做的相当不错的基本上这个红色的这个方块都是在蓝色这个方块上面正确率是非常高的但是呢对于DALL·E 2模型来说呢这个就比较惨不忍睹了错误的结果呢非常的多作者这里就说呢很有可能是用了CLIP模型的原因虽然从一方面呢用了CLIP模型之后呢你这个图像和文本的联系更紧密了你就更容易或者更好去做这种文本生成图像的任务但是另外一方面呢你这个CLIP模型在学习的时候呢只是考虑这种相似性比如说对于这个文本来说红方块蓝方块那其实就是去找哪些图片里有红方块蓝方块然后把这个相似度提到最高就可以了其实CLIP模型呢是不了解什么叫on top of这种东西的它也不了解什么叫上下左右什么叫是或者不是它从头到尾呢就是在找这种物体上的相似性所以说呢当你去用这种CLIP 模型生成的特征去做这种下游任务的时候呢你就不能很好的区分这个物体和它的属性从而导致这里这个图像生成的结果呢就非常差了那作者这里举的另外一个例子呢就是说它发现当用DALL·E 2去生成一些图片那这些图片里有这种文字的时候呢

片段301:19:22~1:21:59

这些文字的顺序呢其实是完全都不对的比如说它这里的这个提示词prompt 说的是我想要生成一个提示语然后上面写的是deep learning 然后我们可以看出来它生成的这些呢确实是长得这个提示语这个样子但是上面呢完全不是deep learning 可能偶尔有一些这个deep对吧但即使是这样这个拼写的顺序也不对更别提learning呢基本就完全没有了而且这不光是这一个例子我们最后在结论的时候呢还会给出更多这样的例子这里说呢很有可能是这个文本编码器刚开始这个文本编码的时候用了这种BPE编码这种呢就你就可以想象成是一种词根词缀这种编码形式所以说它不是整个单词这样去编码的它是词根词缀就这种比如说de 或者pt啊这种东西去编码的所以很有可能呢是造成这种结果的原因但应该还有更多的原因总之呢直接去生成这种文字目前还做的不够好那作者这里举的最后一个例子呢就是说DALL·E 2还是不能生成就是特别复杂的场景很多细节它生成不出来比如第一个图片里说我想要生成一个非常高质量的图片里面有一个狗在绿草地上玩然后这个绿草地旁边呢还有一个小湖那其实这里面我觉得生成呢也已经非常不错了但是这里面的图片呢都有点从网上的图片复制粘贴过来的感觉而且呢都是近景照都是直接生成这个狗占了绝大部分的这个空间完全没有体现出比如说草地旁边有个湖或者说狗在玩这种感觉当然这个例子呢我觉得还不错主要的原因呢可能是下面这个例子下面这个例子呢是说我想生成一张特别高清的一张就是时代广场的图你乍一看呢觉得哎生成的挺好的呀这不就长得像时代广场吗但其实回头如果你去看DALL·E 2这篇论文你把它放大去看的话它这里广告牌上的东西呢全都是模糊的它所有的这些具体的细节啊图像啊这里面的东西也都是随机生成的那种颜色块就完全没有任何语义信息的就它只是生成了这种高楼大厦的这个样子而已这里面的细节缺失呢是非常严重当然我觉得这也不能全怪模型毕竟你给的这个文本太少了如果你把这个文本写的再长一点写成一段话比如说里面有多少个人呢比如说这个广告牌上写的是哪个公司我觉得DALL·E 2呢也是能够一定程度上去生成这些细节了那最后呢我们来总结一下这篇论文其实DALL·E 2这篇论文呢没有结论这个部分他直接就用第7段这个局限性和不足就结束了整篇论文作者说完前几个不足之后呢在最后一段就说所有的这些图像生成的论文比如说从DALL·E到后来的这种GLIDE

片段311:22:04~1:24:41

然后一直到现在DALL·E 2 其实最值得关心的一个问题呢就是这种生成图像里比如说有不公平的东西或者有这种有毒害的东西 DALL·E 2呢它的性能生成图片的这个真实度虽然说比GLIDE更强了比如说FID的分数呢在COCO上从12变成10了但是随之而来的这个risk呢也就更高了因为你现在生成的这个图像越来越像真实的图片了你越来越找不到就是说有任何的痕迹或者说这种标志去告诉你这张图片是AI生成的那也就意味着更多的人可以拿这种模型去以假乱真去生成各种带有政治性色彩的或者带有歧视性色彩的这种图像或者视频但是民众呢都发现不了所以作者这里就呼吁呢更多的研究应该是放在这种就是说安全性上他们在博客里呢也说们内部现在正在做这种研究去研究这个模型的公平性和它生成这种有害图片视频的这种可能性但是DALL·E和DALL·E 2呢真的是开启了这种文本生成图像的这一系列的工作迅速加快了这一领域这个研究的进程比如说之前呢都是半年出一篇比较有影响力的论文那可是最近呢我们也知道 4月份DALL·E 2才放出来 5月份google的Imagen就出来了然后就把这个FID分数呢从10点几变成了7点几然后呢6月份紧接着一个月之后这个google的Parti模型又出来了当然这个FID分数呢还是7左右但是它用的是自回归模型而且效果也非常好模型也非常大有20 billion的参数有200亿所以说这个竞争是越来越激烈越来越白热化了然后除了去做这种图像生成还有人脑洞大开觉得可以用这种方式去做这种数据增强比如说呢我先写一个prompt 写几个单词然后我用GPT 3模型呢哎去帮我把这个作文写完多写一大段话然后我再把这段话呢扔给DALL·E 2 然后让DALL·E 2帮我生成一个图片哎我这不就有一个图像文本对了吗然后我就可以无穷无尽的去生成这种图像文本对然后再用这个图像文本对去生成CLIP 或者去做DALL·E 2的这个训练不就完了吗这个呢就有点这个左脚踩右脚的感觉了在twitter上呢有很多人吵吵着说要做也有很多人觉得可能OpenAI和google呢已经在这么做了但是毕竟现在的这个模型规模和数据规模就已经没有人能玩的动了那再加上这无穷无尽的训练数据感觉呢还是得坐看这些大公司之间怎么玩然后最近呢 twitter上还有一个很火的帖子又说DALL·E 2其实它自己有自己的一套语言它呢理解的不是英语它可以通过一些我们完全看不懂的语言去生成对应的图片比如说这个小哥就说

片段321:24:46~1:27:20

DALL·E 2有自己的一套这个秘密语言比如说这个句子呢其实是鸟的意思然而这又是一堆鸟语呢其实是说这个昆虫然后接下来呢他就给了一句话就巴拉巴拉巴这个完全我也不知道该怎么读但是事实上生成的图片呢全都是一鸟在吃昆虫然后除了那个例子之外呢作者又发现了很多有意思的例子比如说这里他如果把这个文本输进去说有两个农民伯伯呢在讨论这个蔬菜嗯而且这张生成的图片呢最好要带有这个字幕然后我们就会生成这么一个图片上面呢有一个标题这块呢也有这个人说话的这个字幕当然了我们之前也讲过就是说DALL·E 2有这种局限性这个生成的文字呢就是谁也看不懂但是这里呢作者神奇的发现上面的这个标题呢其实代表的就是蔬菜下面的这个标题呢代表的就是鸟所以说当他们把上面的那个标题那个看不懂的文字输给DALL·E 2的时候呢 DALL·E 2就得到了这样的图片就全是做好的菜然后把下面的那个人说出来的那句话呢然后输给DALL·E 2的时候呢就生成了很多鸟所以这也就反映了DALL·E 2的另外一个问题就这个属性对不上本来这个人说的呢其实应该是在讨论这个蔬菜但其实对应过来呢其实人讨论的是鸟那还有一个更好玩的例子就是说有两只鲸鱼在讨论食物这个呢你也要给我生成一个字幕它就生成了这么一个图片两只鲸鱼在讨论什么东西然后又是一串鲸鱼语然后他们把生成的这个文本呢抄下来然后扔给DALL·E 2 然后让它去生成图片结果哎就生成了很多海鲜这个就真的很有意思了那看来这两只鲸鱼还真的就在讨论它们的食物是什么然后呢这个作者还尝试了很多别的不同的例子我这里就不一一说了他们把他们的这个发现呢全都总结到他们的这个arXiv论文里在他的个人主页上是可以找到的然后作者这里呢也跟OpenAI一样非常担心这个模型的安全性的使用问题因为他说之前的这种NLP的这种系统一般都是说会根据这种政策法规去过滤掉一些信息一般这种过滤系统呢还是比较准确和高效的但是呢他们这里发明的这种 DALL·E 2用的黑话或者这种鸟语谁也看不懂的这种语言也就是他们这里说的Gibberish 其实就是垃圾提示词那就很有可能会绕过这些已经设置好的过滤器从而产生一些安全性还有这种可解释性上的这个问题总之呢 DALL·E 2的这个图像生成的效果呢还是非常让我惊讶的我自己呢也玩了很久那个DALL·E mini 尽管呢不论是在论文里还是在twitter上还是在别人的论文里都说DALL·E 2

片段331:27:25~1:27:47

有这样那样的局限性和不足但是我觉得呢以现在这种竞争的白热化的程度以现在这种做研究的速度应该很快我们就能看到更完美的一个图像生成的模型了如果你还没有玩过DALL·E 2 那你也可以去加入那个waitlist 但如果waitlist实在排不上了其实也无所谓反正DALL·E 2才出来了两个月就已经成爷爷辈的工作了说不定下个月又有新的工作出来关注我 🐣回到视频一键复制保存到 Notion📒 一键保存到笔记Made with ❤️ by JimmyLv on GitHubStatus ·Changelog ·TwitterGitHubToggle theme

一键总结哔哩音视频内容

标签：

【自用】DALL·E 2（内含扩散模型介绍）【论文精读】（内含 生成模型的串讲GAN，AE...