欢迎光临散文网 会员登陆 & 注册

DALL·E 2(内含扩散模型介绍)【论文精读】

2023-02-15 13:06 作者:harzvzzza  | 我要投稿

关键词:AGC,AI生成艺术,文本描述,扩散模型,CLIP特征, unCLIP

  • 
    00:40
    
    DALLE2介绍根据文本描述,生成原创性的图片,可以结合concepts, attributes and styles
  • 根据文本,对已有的图片进行编辑

文本:添加一个沙发

  • 根据已有图片的风格,生成新的图片
  • 71.7%的人认为DALLE2效果比DALLE好
  • 暂时不开源,不全面开发API,github上有dalle-mini库


10:21

相关工作进展、标题和作者

作者是CLIP的作者和GLIDE的作者,有diffusion模型的专家


15:36

摘要two stage: prior and decoder

prior: 根据文本生成image embedding

decoder: 根据image embedding生成图像

相比较于GAN,更加多样,有创造力

zero-shot 不需要预训练

prior和decoder都是diffusion model


19:19

引言captioned images 带标题的图像,对于这种问题CLIP模型学习能力很强,robust,适合fine-tune

扩散模型,fidelity保真度比如GAN,多样性比较高;guidance technique可以提高保真度

CLIP模型:文本图像对,对比学习,文本编码器,图像编码器

prior:训练时用文本特征预测图像特征

自己命名为 unCLIP

  • 
    27:38
    
    图像生成工作概述GAN, VAE, VQVAE, DALLEGAN:生成器G生成图片,判别器D判断真图片和假图片,互相较量;优点保真度高,缺点训练不稳定、多样性低
  • Auto-encoder: encoder和decoder,希望输出x‘接近输入x

denoising AE: 加入噪音Xc

Variational AE: 生成一个高斯分布,z是prior,x'是likelihood

VQ-VAE: vector quantized,离散化处理分布,用codebook代替,类似于聚类中心; fq是quantized features

DALL-E:图像文本对,过VQVAE,文本特征和图像特征concat;推理时自回归



41:30

diffusion model前向扩散:对图片加T次正态分布的噪音

reverse diffusion: 反向扩散

U-Net: encoder, decoder, 前后大小一致


46:15

扩散模型的演变DDPM: 预测residual/noise

time embedding: 表示走到哪一步了

  • 
    50:30
    
    总结扩散模型有time step的概念
  • 
    54:14
    
    classifier guided diffusion同时训练图像分类器,用梯度帮助扩散模型采样和生成,提升了写实性分数
  • 
    01:02:23
    
    DALLE2训练数据集:图像文本对
  • 结构:piror和decoder
  • 
    01:11:18
    
    应用和结果根据图片,生成类似风格的图片
  • 图像内插
  • 图像和文本内插
  • 
    01:17:27
    
    局限性和结语不能把物体和属性结合在一起:CLIP不了解逻辑关系,只会比较相似度
  • BPE编码器,使得生成文字不好
  • 细节不够高清



DALL·E 2(内含扩散模型介绍)【论文精读】的评论 (共 条)

分享到微博请遵守国家法律