欢迎光临散文网会员登陆 & 注册

[CVPR2023 Tutorial Talk] Alignments in T

2023-07-01 21:12 作者:-胡椒椒椒 0人读过 | 我要投稿

图文生成中的对齐
可控生成（位置等）
图像特定区域编辑
更好匹配提示词
概念客制化（特定事物）

可控生成

文本+锚框

ReCO
基于锚框的文生图
GLIGEN
开放集合
对象+锚框生成ground tokens

文本+密集条件（和图像一致大小）

Control Net

图像特定区域编辑

Blended LD
基于mask
Prompt-to-Prompt Image Editing with Cross Attention Control
交叉注意力
imagic
编辑真实图像
instructpix2pix
借助生成工具训练编辑模型
instruct-X-decoder
分割、大模型

更好匹配提示词

test time latents
test time attention
对齐微调
structure diffusion
属性泄露、属性不匹配、对象消失
基于语言解析树来执行语言结构的交叉注意中的值查看所有名词短语
attend-and-excite
增强对最被忽视的对象token的最大关注
更新潜在注意力损失

概念客制化（特定事物）

单一概念定制
Dreambooth
添加一个额外标识符 token
最初生成样本以减轻遗忘
多概念定制
Multi-Concept Customization of Text-to-Image Diffusion
Break-A-Scene:Extracting Multiple Concepts from a Single Image
无需测试时微调
Subject-driven text-to-image generation via apprenticeship learning
InstantBooth:Personalized Text-to-Image Generation without Test-Time Finetuning
检索增强/上下文生成
类似的定制，但没有测试时间微调

其他讨论

开源闭源主要平台
视觉数据的消耗和产生：理解（图生文）——生成（文生图）循环

标签：

[CVPR2023 Tutorial Talk] Alignments in T的评论 (共条)