DALL·E 2(内含扩散模型介绍)【论文精读】

关键词:AGC,AI生成艺术,文本描述,扩散模型,CLIP特征, unCLIP
- DALLE2介绍根据文本描述,生成原创性的图片,可以结合concepts, attributes and styles00:40
- 根据文本,对已有的图片进行编辑
文本:添加一个沙发
- 根据已有图片的风格,生成新的图片
- 71.7%的人认为DALLE2效果比DALLE好
- 暂时不开源,不全面开发API,github上有dalle-mini库
相关工作进展、标题和作者
10:21
作者是CLIP的作者和GLIDE的作者,有diffusion模型的专家
摘要two stage: prior and decoder
15:36
prior: 根据文本生成image embedding
decoder: 根据image embedding生成图像
相比较于GAN,更加多样,有创造力
zero-shot 不需要预训练
prior和decoder都是diffusion model
引言captioned images 带标题的图像,对于这种问题CLIP模型学习能力很强,robust,适合fine-tune
19:19
扩散模型,fidelity保真度比如GAN,多样性比较高;guidance technique可以提高保真度
CLIP模型:文本图像对,对比学习,文本编码器,图像编码器
prior:训练时用文本特征预测图像特征
自己命名为 unCLIP
- 图像生成工作概述GAN, VAE, VQVAE, DALLEGAN:生成器G生成图片,判别器D判断真图片和假图片,互相较量;优点保真度高,缺点训练不稳定、多样性低27:38
- Auto-encoder: encoder和decoder,希望输出x‘接近输入x
denoising AE: 加入噪音Xc
Variational AE: 生成一个高斯分布,z是prior,x'是likelihood
VQ-VAE: vector quantized,离散化处理分布,用codebook代替,类似于聚类中心; fq是quantized features
DALL-E:图像文本对,过VQVAE,文本特征和图像特征concat;推理时自回归
diffusion model前向扩散:对图片加T次正态分布的噪音
41:30
reverse diffusion: 反向扩散
U-Net: encoder, decoder, 前后大小一致
扩散模型的演变DDPM: 预测residual/noise
46:15
time embedding: 表示走到哪一步了
- 总结扩散模型有time step的概念50:30
- classifier guided diffusion同时训练图像分类器,用梯度帮助扩散模型采样和生成,提升了写实性分数54:14
- DALLE2训练数据集:图像文本对01:02:23
- 结构:piror和decoder
- 应用和结果根据图片,生成类似风格的图片01:11:18
- 图像内插
- 图像和文本内插
- 局限性和结语不能把物体和属性结合在一起:CLIP不了解逻辑关系,只会比较相似度01:17:27
- BPE编码器,使得生成文字不好
- 细节不够高清