[CVPR2023 Tutorial Talk] Alignments in T
- 图文生成中的对齐
- 可控生成(位置等)
- 图像特定区域编辑
- 更好匹配提示词
- 概念客制化(特定事物)
可控生成
文本+锚框
- ReCO
- 基于锚框 的文生图
- GLIGEN
- 开放集合
- 对象+锚框生成ground tokens
文本+密集条件(和图像一致大小)
图像特定区域编辑
- Blended LD
- 基于mask
- Prompt-to-Prompt Image Editing with Cross Attention Control
- 交叉注意力
- imagic
- 编辑真实图像
- instructpix2pix
- 借助生成工具训练编辑模型
- instruct-X-decoder
- 分割、大模型
更好匹配提示词
- test time latents
- test time attention
- 对齐 微调
- structure diffusion
- 属性泄露、属性不匹配、对象消失
- 基于语言解析树来执行语言结构的交叉注意中的值 查看所有名词短语
- attend-and-excite
- 增强对最被忽视的对象token的最大关注
- 更新潜在注意力损失
概念客制化(特定事物)
- 单一概念定制
- Dreambooth
- 添加一个额外标识符 token
- 最初生成样本以减轻遗忘
- 多概念定制
- Multi-Concept Customization of Text-to-Image Diffusion
- Break-A-Scene:Extracting Multiple Concepts from a Single Image
- 无需测试时微调
- Subject-driven text-to-image generation via apprenticeship learning
- InstantBooth:Personalized Text-to-Image Generation without Test-Time Finetuning
- 检索增强/上下文生成
- 类似的定制,但没有测试时间微调
其他讨论
- 开源闭源主要平台
- 视觉数据的消耗和产生:理解(图生文)——生成(文生图)循环
标签: