重大突破!斯坦福大学提出一种单阶段方法,在30秒内实现高质量文本到3D生成和单图像重
作者:巴巴塔 | 来源:3DCV
在公众号「3DCV」后台,回复「原论文」可获取论文pdf和代码链接
添加微信:dddvisiona,备注:三维重建,拉你入群。文末附行业细分群
1、导读
我们提出了一种基于多视图图像扩散的去噪方法,可以通过少量的多视图图像来生成高质量的3D模型。该方法利用了大型Transformer模型,可以从噪声图像中重建出无噪声的3D模型,并且可以在任意视角上进行渲染。该方法还支持文本和图像的条件输入,可以实现基于单张图像或文本的3D生成和重建。通过实验证明,该方法在单张图像的3D重建和文本到3D生成方面取得了优于先前方法的结果。
2、创新点
提出了一种新颖的单阶段扩散模型,用于3D生成。与传统的两阶段模型相比,我们的模型能够直接通过扩散推理实现快速的3D生成,而无需进行每个资产的优化。这种单阶段的方法在文本到3D生成和单视图重建等方面取得了最先进的质量。
引入了多视图图像扩散去噪。我们的模型基于一个大型的Transformer模型,通过对噪声多视图图像进行重建,输出经过体积渲染的去噪图像。相比于传统的3D点或预训练的3D潜空间的去噪方法,我们的模型能够生成更高质量的几何形状和更清晰的外观细节。
实现了对输入图像和文本的条件输入。我们的模型支持文本和图像的条件输入,可以根据不同的输入生成具有不同属性的3D模型。
3、方法
我们对多个视图进行去噪以进行 3D 生成。我们的多视图降噪器是一个Transformer模型,它根据带有相机姿势的输入噪声图像(由Plucker射线参数化)重建无噪声三平面NeRF。在训练过程中,我们监督三平面NeRF,在输入和新颖的视点处存在渲染损失。在推理过程中,我们在输入视点渲染去噪图像,并将它们与噪声结合起来,以获得下一步去噪步骤的噪声较小的输入。一旦多视图图像完全去噪,我们的模型就会提供干净的三平面NeRF,从而实现3D生成。

3.1、多视角扩散和去噪
多视角扩散是指在数据集中对每个图像独立地进行扩散过程,使用相同的噪声计划。具体而言,每个时间步的扩散结果可以表示为:

其中是初始图像,是服从高斯分布的噪声,是一个随时间递减的参数,控制噪声与信号的比例。
重建式去噪。我们提出利用三维重建和渲染来实现二维多视角图像去噪,并同时输出一个干净的三维模型用于三维生成。具体而言,我们利用一个三维重建模块从噪声多视角图像中重建一个三维表示,并使用可微分渲染模块渲染去噪后的图像:

其中表示在特定视角下从三维模型渲染出的图像。通过在不同视角上渲染,可以对输入的多视角图像进行去噪,从而得到无噪声的。这相当于二维扩散模型中的预测。然而,仅仅在输入视角上监督的预测不能保证高质量的三维生成,通常会导致退化的三维解决方案,其中输入图像被粘贴在与视角对齐的平面上。
因此,我们还提出在三维模型St上监督新视角的渲染结果,从而得到以下训练目标:

其中和表示所有图像和姿态的集合,是图像重建损失,惩罚真实图像与渲染图像之间的差异。我们的框架是通用的,可以适用于任何三维表示方法。在本文中,我们考虑了一个三平面NeRF表示,并提出了基于LRM的重建器。
多视角扩散和去噪是通过对每个图像独立进行扩散过程,并利用三维重建和渲染模块对多视角图像进行去噪。通过监督新视角的渲染结果,可以得到高质量的三维生成结果。
3.2、基于重构器的多视角去噪方法
在DMV3D中,使用了基于重构器的多视角去噪方法。这种方法利用了大型变换器模型,可以从噪声多视角图像中重构出干净的三平面NeRF模型,并通过体素渲染生成去噪图像。这种方法支持文本和图像作为输入条件,通过直接扩散推理实现快速的3D生成,而无需对每个资产进行优化。在各种测试数据集上,我们的方法在文本到3D生成和单视图重建方面优于先前的3D扩散模型,达到了最先进的质量水平。
3.3、图像条件和文本条件
在单个图像或文本上进行条件约束是指在生成3D模型时,通过使用单个图像或文本作为条件来控制生成的结果。在这篇论文中,作者提出了两种条件约束的方法:图像条件和文本条件。
图像条件:在图像条件下,我们使用第一个视角的图像作为条件图像,并对其他视角的图像进行扩散和去噪处理。在这种情况下,去噪器学习从第一个输入视角提取的线索来填充噪声视角中的缺失像素,类似于图像修复的任务。为了提高图像条件模型的泛化能力,我们使用与条件视角对齐的坐标系生成三角平面,并使用相对于条件视角的姿态渲染其他图像。在训练过程中,我们对输入视角的姿态进行归一化处理,并在推理过程中以相同的方式指定输入视角的姿态。
文本条件:为了在模型中添加文本条件,我们采用了与Stable Diffusion论文中类似的策略。我们使用CLIP文本编码器生成文本嵌入,并使用交叉注意力将其注入到我们的去噪器中。具体而言,在ViT的每个自注意力块后面添加一个额外的交叉注意力层,在三角平面解码器的每个交叉注意力块后面也添加一个额外的交叉注意力层。
通过这两种条件约束方法,我们可以实现对生成的3D模型进行控制,使其符合给定的图像或文本条件。
3.4、训练和推理
训练阶段,我们在范围为的时间步骤中均匀采样,并根据余弦调度添加噪声。我们使用随机的相机姿势对输入图像进行采样。我们还随机采样额外的新视点来监督渲染以获得更好的质量。我们使用条件信号最小化以下训练目标:

对于图像重建损失,我们使用L2损失和LPIPS损失的组合,其中损失权重分别为1和2。
推理阶段,我们选择均匀环绕物体的四个视点,以确保生成的3D模型具有良好的覆盖范围。我们将相机视场固定为50度,适用于这四个视图。由于我们预测与条件图像的相机框架对齐的三平面NeRF,因此我们还固定了条件图像的相机外参,使其具有身份方向和位置,这是LRM的做法。我们将最终去噪步骤中的三平面NeRF输出作为生成的3D模型。我们利用DDIM算法来提高推理速度。
4、实验结果
定量评估:研究使用了两个测试数据集(GSO和ABO)来进行定量评估。通过比较提出的模型和基准方法在这些数据集上的表现,使用了多个评估指标,包括FID、CLIP、PSNR、SSIM、LPIPS和CD等。实验结果表明,提出的模型在所有指标上都取得了最佳的得分,证明了其在生成质量和重建质量方面的优势。

定性评估:研究通过展示生成的结果图像来进行定性评估。通过与基准方法的比较,展示了提出的模型在几何形状和外观细节方面的优势。实验结果表明,提出的模型生成的结果具有更高质量的几何形状和更清晰的外观细节。


此外,研究还进行了一些消融实验来验证模型的设计选择和性能。通过比较不同输入视图数量、多个实例生成、不同输入来源以及不同模型配置的实验结果,验证了模型的鲁棒性、通用性和有效性。



总结起来,本研究通过定量评估和定性评估的实验方法,验证了提出的模型在生成质量和重建质量方面的优势,并通过消融实验验证了模型的设计选择和性能。
5、结论
我们提出了一种新颖的单阶段扩散模型,用于3D生成,通过去噪多视图图像扩散生成3D资产。该模型基于一个大型的Transformer模型,将嘈杂的多视图图像重建为干净的三平面NeRF,并通过体素渲染输出去噪图像。该方法支持文本和图像输入,通过直接扩散推理实现快速的3D生成,而无需每个资产的优化。实验结果表明,该方法在文本到3D生成和单视图重建方面的质量优于先前的3D扩散模型,并在各种测试数据集上取得了最先进的结果。