最新发布！TokenFlow：一致的扩散特征用于一致的视频编辑

2023-08-08 19:41 作者:3D视觉工坊 0人读过 | 我要投稿

最近，生成式人工智能革命已经扩展到了视频领域。然而，目前最先进的视频模型在视觉质量和用户对生成内容的控制方面仍落后于图像模型。在本文中，我们提出了一种框架，利用文本到图像扩散模型的能力来实现文本驱动的视频编辑任务。具体地，给定一个源视频和一个目标文本提示，我们的方法生成一个高质量的视频，遵循目标文本，同时保留输入视频的空间布局和运动。我们的方法基于一个关键观察：通过强制扩散特征空间上的一致性，可以获得编辑后的视频的一致性。我们通过根据模型中可用的帧间对应关系显式传播扩散特征来实现这一点。因此，我们的框架不需要进行任何培训或微调，并且可以与任何现成的文本到图像编辑方法配合使用。我们在多个真实世界视频上展示了最先进的编辑结果。

作者：幸运的石头 | 来源：3DCV

在公众号「3D视觉工坊」后台，回复「原论文」即可获取论文pdf。

添加微信：dddvisiona，备注：2D视觉，拉你入群。文末附行业细分群。

限于篇幅，对本文的的深入思考与理解，我们发表在了「3D视觉从入门到精通」知识星球。

介绍

最近，文本到图像模型的发展促进了图像编辑和内容创作的进展，使用户能够控制生成和真实图像的各种属性。然而，将这一令人兴奋的进展扩展到视频领域仍然落后。涌现了大量大规模的文本到视频生成模型，展示了仅从文本描述中生成剪辑的令人印象深刻的结果。

然而，尽管在这个领域取得了进展，现有的视频模型仍处于发展初期，受到分辨率、视频长度或其所能表示的视频动态复杂性的限制。在本文中，我们利用最先进的预训练文本到图像模型的能力，为自然视频的文本驱动编辑任务提供支持。

具体而言，我们的目标是生成高质量的视频，遵循由输入文本提示表达的目标编辑，同时保留原始视频的空间布局和运动。利用图像扩散模型进行视频编辑的主要挑战在于确保编辑后的内容在所有视频帧上保持一致性——理想情况下，3D世界中的每个物理点都会在时间上经历连贯的修改。基于图像扩散模型的现有和并行视频编辑方法已经证明，通过将自注意力模块扩展到包括多个帧可以实现编辑帧之间的全局外观连贯性（例如[53,19,5,34]）。

然而，这种方法无法实现所需的时间上连贯性水平，因为视频中的运动只是通过注意力模块隐含地保留。因此，专业或半专业用户通常会采用复杂的视频编辑流程，需要额外的手动工作。在本研究中，我们提出了一种框架来解决这个挑战，通过明确强制执行原始帧间视频对应关系来实现编辑。直观地说，自然视频在帧之间包含冗余信息，例如呈现相似的外观和共享视觉元素。我们的关键观察是，在扩散模型中，视频的内部表示具有类似的属性。也就是说，在RGB空间和扩散特征空间中，帧的冗余性和时间上连贯性紧密相关。基于这个观察结果，我们方法的支柱是通过确保编辑后的视频特征在帧之间保持一致性来实现一致性编辑。具体来说，我们强制要求编辑后的特征传达与原始视频特征相同的帧间对应关系和冗余性。

为此，我们利用原始帧间特征对应关系，在模型中很容易获得。这导致了一种有效的方法，可以根据原始视频动态直接传播编辑后的扩散特征。这种方法使我们能够利用最先进的图像扩散模型的生成先验知识，无需进行额外的培训或微调，并且可以与现成的基于扩散模型的图像编辑方法（例如[29, 56, 12]）配合使用。

总之，我们做出了以下关键贡献：

• 一种名为TokenFlow的技术，可以在扩散特征之间强制执行语义对应关系，从而显著提高由文本到图像扩散模型生成的视频的时间上连贯性。

• 新颖的经验分析研究了扩散特征在整个视频中的特性。

• 在各种各样复杂运动展示了最先进的编辑结果。

相关工作

文本驱动的图像和视频合成开创性的研究设计了GAN体系结构，以基于文本嵌入生成图像[37,54]。随着视觉语言数据集和预训练策略的不断扩大[35,42]，在文本驱动的图像生成能力方面取得了显着进展。用户可以使用简单的文本提示来合成高质量的视觉内容。许多这方面的进展也归功于扩散模型[47,8,9,14,31]，这些模型已经被证明是最先进的文本到图像生成器[30,41,36,38,44,2]。这样的模型已经扩展到文本到视频生成，通过将2D体系结构扩展到时间维度（例如使用时间注意力[15]）并在视频数据集上进行大规模训练[13,46]。

最近，Gen-1 [10]为视频编辑任务量身定制了扩散模型体系结构，通过在网络上进行结构/外观表示来调整网络。然而，由于它们的计算和内存需求巨大，现有的视频扩散模型仍处于萌芽阶段，局限于短片，或者与图像模型相比具有较低的视觉质量。在另一方面的光谱上，最近有一个有前途的趋势，即利用预训练的图像扩散模型进行视频合成任务，无需进行额外的训练[11,53,23,34]。我们的工作属于这一类别，利用预训练的文本到图像扩散模型进行视频编辑任务，无需任何训练或微调。

一致的视频风格化一种常见的方法是在帧级别应用图像编辑技术（例如样式转移），然后进行后处理以解决结果视频中的时间不一致性[21,25,24]。虽然这些方法有效地减少了高频时间闪烁，但它们并不适用于呈现实质性变化的帧，这种变化通常发生在应用基于文本的图像编辑技术时[34]。Kasten等人[18]提出将视频分解为一组2D图集，每个图集在整个视频中提供了背景或前景对象的统一表示。应用于2D图集的编辑会自动映射回视频，从而以最小的努力实现时间一致性。

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶方向，细分群包括：[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群；[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群；[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些，还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

但是，这种方法在表示能力方面有限，并需要长时间的训练，两者都限制了该技术的适用性。我们的工作也与经典作品有关，这些作品证明自然视频中小补丁在帧之间广泛重复[43,7]，因此可以通过编辑一组关键帧并使用手工制作特征和光流建立补丁对应关系（例如[40]）或通过训练基于补丁的GAN [50]来传播编辑并跨越视频。然而，这种传播方法难以处理具有光照变化或具有复杂动态的视频，并且只能作为后处理。我们的工作与这种方法具有相似的动机，可以从自然视频中受益于时间冗余。我们展示了这种冗余在文本到图像扩散模型的特征空间中也存在，并利用这种属性来实现一致性。

通过扩散特征操作实现控制生成

最近，涌现了大量工作表明，通过对扩散网络的中间特征表示执行简单操作[6,16,28,51,12,32,4]，可以轻松地将文本到图像扩散模型适应各种编辑和生成任务。同时进行语义外观交换的并发作品（使用扩散特征对应关系[27,55]）。Prompt-to-Prompt[12]观察到通过操纵交叉注意力层，可以控制图像空间布局与文本中每个单词之间的关系。Plug-and-Play Diffusion (PnP)[51]分析了空间特征和自我注意映射，并发现它们以高空间粒度捕获语义信息。Tune-A-Video[53]观察到通过将自我注意扩展到不止一个帧，可以生成具有共同全局外观的帧。并发作品[34、5、20、45、26]利用这个属性来实现全局一致性视频编辑。然而，如第5节所示，扩大自我注意力模块不足以实现精细的时间一致性。先前和同时进行的工作要么牺牲视觉质量，要么表现出有限的时间一致性。在这项工作中，我们还通过对预训练文本到图像模型的特征空间进行简单操作来执行视频编辑。然而，我们不仅仅依赖于自我注意力膨胀，而是通过TokenFlow明确地鼓励模型特征在时间上保持一致。

前提条件

扩散模型扩散概率模型（DPM）[47、8、9、14、31]是一类生成模型，旨在通过渐进去噪过程逼近数据分布q。从高斯独立同分布噪声图像xT ~ N(0，I)开始，扩散模型逐渐去噪，直到达到从目标分布q中抽取的干净图像x0。DPM可以通过纳入额外的引导信号（例如文本条件）来学习条件分布。Song等人[48]推导了DDIM，一种在给定初始噪声xT的情况下的确定性采样算法。通过在反向顺序（即DDIM反演）中应用此算法，从干净的x0开始，可以获得用于生成它的中间噪声图像{x_i}_T^t=1。

稳定扩散稳定扩散（SD）[38]是一种在潜在图像空间中操作的重要文本到图像扩散模型。预训练编码器将RGB图像映射到该空间，解码器将潜变量解码回高分辨率图像。更详细地说，SD基于U-Net架构[39]，它包括残差、自我注意和交叉注意块。残差块卷积来自前一层的激活，而交叉注意根据文本提示操纵特征。在自我注意块中，特征被投影到查询Q、键K和值V中。块的输出由以下公式给出：A·V 其中A = Attention(Q; K) (1) Attention操作[52]计算d维投影Q、V之间的亲和度。形式上， Attention(Q; K) = Softmax(QK^T/√d!) (2)

方法

给定一个输入视频 I=[I1,...,In] 和一个描述目标编辑的文本提示 P，我们的目标是生成一个编辑后的视频 J=[J1,...,Jn]，它遵循文本 P，同时保留 I 的原始运动和语义布局。为了实现这一目标，我们的框架利用了一个预训练和固定的文本到图像扩散模型 εθ。Naïvely地利用 εθ 进行视频编辑，通过独立地在每个帧上应用图像编辑方法（例如 [12, 51, 29, 56]）会导致帧之间的内容不一致（例如图2中间列）。我们的关键发现是，在编辑过程中通过在帧之间的内部扩散特征之间强制保持一致性，可以减轻这些不一致性。

自然视频通常描绘了随时间连贯且共享的内容。我们观察到，自然视频在 εθ 中的内部表示具有类似的性质。这在图2中得到了说明，我们可视化给定视频（第一列）提取的特征。如图所示，这些特征描绘了跨帧共享和一致的表示，即相应区域显示出类似的表示。我们进一步观察到，原始视频特征提供了帧之间的细粒度对应关系，使用简单的最近邻搜索（图3）。此外，我们展示了这些相应特征对于扩散模型是可互换的 - 我们可以通过将其特征与附近帧中的相应特征进行交换来忠实地合成一个帧（图3(a)）。然而，当每个帧独立应用编辑时，特征的一致性就会破坏（图2中间列）。这意味着 RGB 空间中的一致性水平与帧的内部特征的一致性相关。因此，我们的关键思想是操纵编辑视频的特征，以保留原始视频特征的一致性水平和帧间对应关系。

如图4所示，我们的框架名为 TokenFlow，在每个生成时间步长之间交替使用两个主要组件：(i) 采样一组关键帧，并根据 P 共同编辑它们；此阶段导致关键帧之间共享全局外观；和 (ii) 基于原始视频特征提供的对应关系将来自关键帧的特征传播到所有帧；此阶段显式保留原始视频特征的一致性和细粒度共享表示。两个阶段都与图像编辑技术 ε̂θ（例如 [51]）结合使用。直观地说，交替进行关键帧编辑和传播的好处是双重的：首先，在每个生成步骤中随机采样关键帧可以增加对特定选择的鲁棒性。其次，由于每个生成步骤都会产生更加一致的特征，因此下一步中采样的关键帧将更加一致地进行编辑。

预处理：提取扩散特征给定输入视频 I，我们在每个帧 Ii 上应用 DDIM 反演（见第3节），得到一个潜变量序列 [xi1,...,xiT]。对于每个生成时间步 t，我们将每个帧 i∈[n] 的潜变量 xit 馈送到模型中，并从网络εθ 的每个层中提取自我注意模块的 tokens φ(xit)。稍后我们将使用这些 tokens 来建立扩散特征之间的帧间对应关系。

关键帧采样和联合编辑我们的观察结果表明，给定单个编辑帧的特征，我们可以通过将其特征传播到相应位置来生成下一个帧。然而，大多数视频不能由单个关键帧表示。为了解决这个问题，我们考虑多个关键帧，从中获取一组特征（令牌）Tbase，稍后将其传播到整个视频。具体来说，在每个生成步骤中，我们在固定的帧间隔（详见 SM）中随机选择一组关键帧 {Ji}i∈κ。我们通过扩展自注意力块以同时处理它们 [53] 来联合编辑关键帧，并鼓励它们共享全局外观。更详细地说，修改后的块的输入是所有关键帧的自注意特征 {Qi}i∈κ，{Ki}i∈κ，{Vi}i∈κ。其中 Qi，Ki，Vi 是第 i 个关键帧的查询、键和值。所有帧的键被连接起来，并计算扩展自注意力：ExtAttn(Qi; [Ki1, ..., Ki k]) = Softmax(QiKi1, ..., Ki kT/√d!) (3) 第 i 帧块的输出如下： φ(Ji) = ˆA · [Vi1, ..., Vi k] 其中 ˆA = ExtAttn(Qi; [Ki1, ..., Ki k]) (4)

我们定义 Tbase = {φ(Ji)}i∈κ，对于网络中的每个层（图 4 左下角）。直观地说，每个关键帧都查询所有其他关键帧，并从它们聚合信息。这导致编辑后的帧具有大致统一的外观 [53, 19, 5, 34]。通过 TokenFlow 进行编辑传播

给定 Tbase，我们基于从原始视频中提取的令牌对应关系将其传播到整个视频。在每个生成步骤 t 中，我们计算每个原始帧的令牌的最近邻（NN）φ(xi t)及其两个相邻关键帧的令牌φ(xi+t)和φ(xi−t)，其中i+是最接近的未来关键帧的索引，i−是最接近的过去关键帧的索引。记结果的 NN 字段为γi+，γi−：γi±[p]=argminqD(φ(xi)[p],φ(xi±)[q]) (5)

其中p，q是令牌特征图中的空间位置，D是余弦距离。为简单起见，我们省略了生成时间步长t的符号；我们的方法在所有时间步长和自注意层中应用。一旦我们获得γ±，我们使用它将编辑后的帧的令牌Tbase传播到整个视频中，方法是线性组合Tbase中对应于每个空间位置p和帧i的令牌：Fγ(Tbase,i,p)=wi·φ(Ji+)[γi+[p]]+(1−wi)·φ(Ji−)[γi−[p]] (6)

其中φ(Ji±)∈Tbase，wi∈(0,1)是一个标量，与帧i及其相邻关键帧之间的距离成比例（见SM），确保平滑过渡。

注意，F也修改了采样的关键帧的令牌。也就是说，我们修改了自注意块的输出，以输出Tbase中令牌的线性组合。

整体算法

我们在算法1中总结了视频编辑算法：首先对输入视频I执行DDIM反演，并提取所有帧i∈[n]的噪声潜变量序列{xit}Tt=1（图4，顶部）。然后我们进行去噪操作，交替进行关键帧编辑和TokenFlow传播：在每个生成步骤t中，我们随机选择k<n个关键帧索引，并使用图像编辑技术（例如[51,29]）结合扩展自注意（Eq. 4，Fig. 4（I））对其进行去噪。然后我们使用TokenFlow（Eq. 6，Fig. 4（II））对整个视频Jt进行去噪，在网络的每个自注意块的每个层中都进行操作。请注意，每个层包括自注意块输入和输出之间的残差连接，因此在每个层执行TokenFlow是必要的。

结果

我们在 DAVIS 视频 [33] 和互联网视频上评估了我们的方法，这些视频展示了动物、食物、人类和各种运动物体。

视频的空间分辨率为384×672或512×512像素，由40到200帧组成。我们在每个视频上使用各种文本提示，以获得不同的编辑结果。我们的评估数据集包括61个文本-视频对。我们使用 PnP-Diffusion [51] 作为帧编辑方法，并对所有结果使用相同的超参数。由于 DDIM 反演不准确，PnP-Diffusion 可能无法准确保留每个帧的结构（见图2中间列右侧帧：狗的头部变形）。我们的方法提高了对此的鲁棒性，因为它可以更好地保留帧的结构。

算法1中，我们提出了基于 TokenFlow 的编辑方法。我们的框架可以与任何准确保留图像结构的扩散式图像编辑技术结合使用；SM中提供了使用不同图像编辑技术（例如[29]）的结果和实现细节。图5和图1显示了编辑视频的示例帧。我们的编辑在时间上保持一致，并遵循编辑提示。男子的头部被改变为梵高或大理石（左上角）；重要的是，男子的身份和场景的背景在整个视频中保持一致。多边形狼的图案（左下角）在时间上保持一致：身体始终是橙色，而胸部是蓝色。更多视频示例请参见SM。

基准方法我们将我们的方法与最先进的并行工作进行比较，包括：

(i) Text2Video-Zero [19]：该方法利用ControlNet [56]进行视频编辑，使用自注意力膨胀（self-attention inflation）技术。

(ii) Tune-a-Video [53]：该方法在给定的测试视频上对文本到图像模型进行微调。

(iii) Gen-1 [10]：这是一个基于视频扩散的模型，它是在大规模图像和视频数据集上训练得到的。

(iv) Text2LIVE [1]：该方法利用分层视频表示（NLA）[18]，并使用CLIP损失进行测试时训练。需要注意的是，NLA需要前景/背景分离掩模，并且训练需要约10小时。因此，我们在DAVIS视频上与它们进行比较，因为有一个可用的NLA模型。

此外，我们还考虑了以下两个基准：

(i) Per-frame扩散式图像编辑基线，PnP-Diffusion [51]。

(ii) 对单个关键帧应用PnP-Diffusion，并使用[17]将编辑传播到整个视频。

定性评估

图6提供了我们的方法与四个突出的基准方法的定性比较；请参阅SM获取完整的视频。我们的方法（底行）输出的视频更好地符合编辑提示，同时保持编辑后视频的时间一致性，而其他方法则在满足这两个目标上存在困难。Tune-A-Video [53]（第二行）将2D图像模型扩展成视频模型，并对其进行微调，以过拟合视频的运动；因此，适用于短片。对于长视频，它难以捕捉运动，导致无意义的编辑，例如发光的金属雕塑。独立地对每一帧应用PnP-Diffusion（第三行）会产生与编辑提示完美匹配的精美编辑，但是如预期的那样，缺乏任何时间一致性。Gen-1 [10]的结果（第四行）也存在一些时间不一致性（折纸鹳的嘴巴变色）；此外，其帧质量显著较差于文本到图像扩散模型。Text2Video-Zero [19]的编辑结果（第五行）出现严重的抖动，因为该方法在很大程度上依赖扩展的注意力机制来隐式地鼓励一致性。

图7展示了我们的方法与Text2LIVE [1]以及使用[51]对单个关键帧进行编辑并使用[17]将编辑传播到视频其余部分的额外定性比较。Text2LIVE缺乏强大的生成先验，因此，如第3行所示，其视觉质量有限。此外，该方法依赖于视频的分层表示([18])，训练需要约10小时，并且仅适用于具有简单运动的视频。使用[17]来传播编辑在不接近编辑关键帧的帧上产生传播伪影（第2行）。

定量评估

我们从以下几个方面评估我们的方法：(i) 编辑保真度，通过计算每个编辑帧的CLIP嵌入[35]与目标文本提示之间的平均相似性来衡量；(ii) 时间一致性。按照[5, 22]的方法，时间一致性通过计算原始视频的光流（使用[49]）并根据光流对编辑后的帧进行变形，然后测量变形误差来衡量。

表1对比了我们的方法与基准方法。我们的方法实现了最高的CLIP分数，显示编辑后的视频与输入指导提示之间的良好匹配。此外，我们的方法具有最低的变形误差，表明结果在时间上是一致的。

此外，我们还考虑了通过将原始视频通过LDM自编码器进行传递的参考基准方法（LDM recon.）而不进行编辑。这个基准方法提供了LDM自编码器能够达到的时间一致性的上限。正如预期的那样，这个基准方法的CLIP相似性很差，因为它不涉及任何编辑。然而，这个基准方法也没有实现零变形误差，因为LDM自编码器的不完美重建导致了高频信息的虚构。

消融研究

我们对我们的框架进行了主要设计选择的消融实验。

首先，我们消融了用于强制时间一致性的TokenFlow（第4.2节）（w/o TokenFlow）。在这个实验中，我们将TokenFlow替换为扩展的注意力（Eq. 4），并在编辑后的视频的所有帧之间计算它。需要注意的是，这个操作在计算上是很耗费资源的，并且随着视频的持续时间增加，计算复杂度会变得很高。其次，我们消融了在每个生成步骤中随机选择关键帧的操作（w/o random keyframes）。在这个实验中，我们在生成过程中使用相同的关键帧索引（在时间上均匀分布）。

此外，固定关键帧会将视频人为地划分为在固定关键帧之间的短片。这种划分对结果的时间一致性产生了负面影响，如较高的变形误差所示。这个效果可以在SM中的消融视频中看到。

讨论

我们提出了一种新的基于图像扩散模型的文本驱动视频编辑框架。我们研究了视频在扩散特征空间中的内部表示，并证明通过在生成过程中保持一致的扩散特征表示可以实现一致的视频编辑。我们的方法优于现有的基准方法，在时间一致性方面取得了显著改进。然而，我们的方法专门用于保留原始视频的运动，因此无法处理需要结构变化的编辑（如图8所示）。此外，我们的方法建立在基于扩散的图像编辑技术之上，以允许原始帧结构的保留。当图像编辑技术无法保留结构时，我们的方法会强制应用在编辑帧中毫无意义的对应关系，从而导致视觉伪影。最后，LDM解码器引入了一些高频闪烁[3]。对于这个问题，可能的解决方案是将我们的框架与改进的解码器相结合（例如[3]，[57]）。

我们注意到，这种轻微的闪烁可以通过现有的后处理去闪烁方法轻松消除（见SM）。我们的工作为扩散模型空间中自然视频的内部表示（例如时间冗余）提供了新的见解，以及如何利用它们来增强视频合成。我们相信这将激发未来在利用图像模型进行视频任务和设计文本到视频模型方面的研究。

标签：

最新发布！TokenFlow：一致的扩散特征用于一致的视频编辑

介绍

相关工作

前提条件

方法

讨论