欢迎光临散文网 会员登陆 & 注册

[CVPR2023 Tutorial Talk] Alignments in T

2023-07-01 21:12 作者:-胡椒椒椒  | 我要投稿
  • 图文生成中的对齐
  • 可控生成(位置等)
  • 图像特定区域编辑
  • 更好匹配提示词
  • 概念客制化(特定事物)

可控生成

文本+锚框

  • ReCO
  • 基于锚框 的文生图
  • GLIGEN
  • 开放集合
  • 对象+锚框生成ground tokens

文本+密集条件(和图像一致大小)

  • Control Net

图像特定区域编辑

  • Blended LD
  • 基于mask
  • Prompt-to-Prompt Image Editing with Cross Attention Control
  • 交叉注意力
  • imagic
  • 编辑真实图像
  • instructpix2pix
  • 借助生成工具训练编辑模型
  • instruct-X-decoder
  • 分割、大模型

更好匹配提示词

  • test time latents
  • test time attention
  • 对齐 微调
  • structure diffusion
  • 属性泄露、属性不匹配、对象消失
  • 基于语言解析树来执行语言结构的交叉注意中的值 查看所有名词短语
  • attend-and-excite
  • 增强对最被忽视的对象token的最大关注
  • 更新潜在注意力损失

概念客制化(特定事物)

  • 单一概念定制
  • Dreambooth
  • 添加一个额外标识符 token
  • 最初生成样本以减轻遗忘
  • 多概念定制
  • Multi-Concept Customization of Text-to-Image Diffusion
  • Break-A-Scene:Extracting Multiple Concepts from a Single Image
  • 无需测试时微调
  • Subject-driven text-to-image generation via apprenticeship learning
  • InstantBooth:Personalized Text-to-Image Generation without Test-Time Finetuning
  • 检索增强/上下文生成
  • 类似的定制,但没有测试时间微调

其他讨论

  • 开源闭源主要平台
  • 视觉数据的消耗和产生:理解(图生文)——生成(文生图)循环

[CVPR2023 Tutorial Talk] Alignments in T的评论 (共 条)

分享到微博请遵守国家法律