NeRF革新?PF-LRM:Transformer引领的稀疏NeRF模型—三维重建的未来
作者:小张Tt | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf、项目链接
本研究提出了PF-LRM模型,用于从未姿态处理的少数图像中快速重建三维对象。该模型利用自注意力模块进行信息交换,预测每个视图的粗略点云,并通过可微分的透视n点(PnP)求解器获取相机姿态。经过在约100万个对象的多视图姿态数据上训练,PF-LRM表现出强大的泛化能力,并在未见数据集上在姿态预测准确性和三维重建质量方面显著优于基线方法。该模型还可应用于文本/图像到三维任务,并具有快速的前向推理能力。
读者理解:
PF-LRM 与其他方法相比的优势在于其高度可扩展性和强大的跨数据集泛化能力。PF-LRM 方法使用自注意力块在 3D 对象令牌和 2D 图像令牌之间交换信息,从而实现高度可扩展性。此外,当在大量多视角数据上进行训练时,PF-LRM 显示出强大的跨数据集泛化能力,并在各种评估数据集上的姿势预测准确性和 3D 重建质量方面优于基线方法。
该文章的主要贡献是:
提出了 PF-LRM 方法,该方法可以从少量未定位图像中重建 3D 对象
同时在 1.3 秒内在单个 A100 GPU 上估计相机姿态。
1 引言
本研究提出了PF-LRM,一种用于同时预测相机姿态、物体形状和外观的类别无关方法。该方法使用了三面体NeRF表示,并采用了新颖的可扩展单流Transformer模型,在2D和3D令牌之间进行全面的信息交换。通过在大规模数据集上训练,PF-LRM在稀疏输入情况下能够稳健地重建准确的姿态和逼真的3D物体,超越了基线方法。该模型在不需要直接3D监督的情况下训练,并且能够推广到未见数据集,并处理2-4个无姿态输入图像,实现了姿态估计和新视角合成的最新结果。模型还展示了在文本/图像到3D等领域的潜在应用。这里也推荐工坊推出的新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

2 相关工作
本研究对比了在3D重建领域的相关工作。NeRF技术最初需要大量的带姿态图像进行准确重建,而近期的研究尝试通过正则化策略或从大量数据集中学习先验知识来实现稀疏视图NeRF重建。相比之下,本方法能够高效地从稀疏视图中重建三面体NeRF,并在推理过程中恢复未知的相对相机姿态。结构从运动(SfM)技术在视图间找到2D特征匹配,但在极度稀疏的输入视图下,特征匹配变得非常具有挑战性,而本方法依赖于来自大量数据的形状先验知识成功地解决了相机注册的问题。神经姿态预测方法直接回归相机姿态,而我们的方法则联合推理相机姿态和3D形状,取得了显著的改进。与其他采用两阶段预测流程的方法不同,我们的方法使用单阶段推理流程同时恢复相机姿态和3D NeRF重建,通过预测粗略点云和使用PnP求解器进行姿态估计,适用于稀疏视图输入并获得更准确的结果。

3 方法
本文旨在从未知相机姿态的一组图像中重建3D对象的模型并估计每个图像的姿态。采用Transformer模型处理标记化的输入图像和三面体NeRF,其中NeRF令牌代表用于神经渲染的三面体NeRF,而图像块令牌用于通过可微的PnP求解器估计每个视图的粗略点云以进行姿态估计。

单流Transformer方法采用预训练的DINO Vision Transformer对输入图像进行标记化处理,并通过单流多模态Transformer对图像和三面体NeRF进行标记化处理。该方法的设计灵感源自于LRM及其后续工作,但采用了单流架构,实现了图像令牌和NeRF令牌之间的信息交换,以预测一致的NeRF和用于相机估计的每个视图粗略几何,而先前的方法采用编码-解码设计。
通过神经可微分体积渲染监督学习NERF模型的形状和外观,使用了体积渲染来生成三面体NeRF在新视角下的图像。这一渲染过程由数学公式表达,其中采用L2和VGG-based LPIPS损失函数来监督神经渲染的重建效果,以优化形状与外观的学习过程。
通过可微分PNP求解器进行姿态预测的方法。该方法利用NeRF tokens上下文化的每个视图图像块标记来估计相机的相对姿态,通过MLP预测了每个图像块标记对应的3D点位置和置信度。通过实施一系列损失函数,特别是可微分PNP损失,从而稳定并提高了姿态预测的准确性。
最终的训练目标是由多个损失项组合而成,其中包括渲染损失以及各个与粗略几何预测、不透明度预测和可微分PNP损失相关的损失项。Transformer模型采用36个自注意力层,并通过特定的处理方式来减少在其中使用的tokens数量。优化器采用AdamW,初始学习率为零,随着训练步骤的进行逐渐增加并按余弦调度衰减。此模型的训练需要大量的GPU资源,并使用了一些技术来优化模型训练过程中的内存使用。
4 实验
训练数据集包括了Objaverse和MVImgNet的多视角定位图像,而评估数据集涵盖了多个数据集,如OmniObject3D、GSO、ABO、CO3D和DTU。本文使用多种指标对模型的性能进行评估,涉及相对姿态估计和重建质量方面的度量。同时,还对PF-LRM模型与其他基线方法在姿态估计和重建质量上的表现进行了对比分析。
在姿态预测质量方面,本文的模型在OmniObjects3D、ABO、GSO、CO3D和DTU等未知数据集上取得了出色的成果。相比基线方法(FORGE、HLoc和RelPose++),本文的模型在各项度量指标下都取得了显著的优势。作者特别关注了不同方法在跨数据集泛化能力方面的表现,这反映了它们在实际应用中的性能。对于OmniObjects3D、GSO和ABO数据集,作者相对FORGE获得了平均14.6倍的旋转误差减少率,相对HLoc和RelPose++分别为15.3倍和14.7倍。本文的模型在处理非信息性白色背景输入图像时表现出色,相比较其他方法,能够取得更准确的姿态估计结果。在CO3D和DTU数据集上,也展现出比RelPose++和FORGE更好的泛化能力。在重建质量方面,本文的模型在OmniObjects3D、GSO和ABO数据集上表现出色,平均PSNR为24.8,远远超过基线方法FORGE的13.4。本文的模型能够产生高质量的重建,并且在渲染NeRF时与实际输入图像相匹配。相比之下,基线方法FORGE在这一目标上表现不佳,显示出PSNR较低的趋势。
通过对可变数量的输入视图进行测试,作者的模型展现了一定程度的鲁棒性,在减少视图数量的情况下性能有所下降,但降低的幅度是可以接受的。然而,当输入的分割掩模非常嘈杂时,我们的模型性能明显下降,这与CO3D数据集提供的不准确掩模可能对模型性能造成负面影响一致。
在消融研究中,通过对模型进行不同设置的训练与评估,得出了一些重要结论。首先,较大模型相较于较小模型,在姿态预测准确性和NeRF重建质量方面表现出更优异的结果。其次,移除NeRF预测会导致训练的不稳定性,而移除姿态预测会显著影响模型对3D重建的学习能力。消融实验强调了模型规模和关键预测任务对模型性能的影响,为深入理解模型行为和性能提供了有益的见解。
本文模型在文本/图像到3D生成应用中展现了广泛的应用前景,能够利用少量未姿态化的图像或文本快速实现高质量的3D重建。其两阶段3D生成流程具有灵活性,可根据需求在文本到图像和图像到3D之间选择合适的生成路径。这里也推荐工坊推出的新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。


5 总结
本研究提出了一种基于Transformer的重建模型,能够联合估计摄像机参数并重建高质量的3D形状,通过自注意力机制实现了NeRF重建和稳健的姿态估计。模型在多视图数据集上训练表现优异,相对基线方法在姿态预测和重建质量方面有较大优势,并且在文本/图像到3D生成等应用中具备潜在应用前景。
