欢迎光临散文网 会员登陆 & 注册

ICCV 2023 I NeRF新突破,从NeRF到transformers!

2023-09-11 08:53 作者:3D视觉工坊  | 我要投稿

本研究关注跨场景通用的 NeRF 模型,其能够合成未见过场景的新视图。现有尝试采用端到端的“神经化”架构,用性能卓越的神经网络替换场景表示和渲染模块,以实现前向推理合成新视图。然而,这些架构仍然不能很好地适应不同类型的场景。作者提出了借鉴大型语言模型中的强大专家混合(MoE)思想,通过平衡整体模型容量和个例专业化,来增强这些架构的通用性。作者在通用 NeRF 架构 GNT 的基础上引入了 MoE,并进一步定制了共享的永久专家和几何感知一致性损失。这些定制化措施有助于提高跨场景一致性和空间平滑度,这对于通用视图合成至关重要。作者的模型命名为 GNT-MOVE,在未见过的场景中表现出卓越的泛化能力,无论是在零样本还是少样本情况下,都取得了最先进的结果。

本文引入了Mixture-of-Experts (MoE)思想并将其定制为通用的神经辐射场 (NeRF)框架,形成了GNT-MOVE模型。该模型通过MoE transformers显著提高了复杂场景上的可泛化新视角合成能力。为了适应可泛化的NeRF,作者引入了共享的永久Expert以实现跨场景渲染的一致性,并通过几何感知的空间一致性目标来提高视图间的空间平滑性。实验证明了GNT-MOVE在跨场景泛化上的有效性,包括零样本和少样本的设置。该模型在多场景训练时实现了最先进的性能,具有更好的零样本泛化和一致的强大的少样本泛化能力。这里也推荐「3D视觉工坊」新课程《深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战》。

GNT-MOVE主要贡献可以总结如下:


  • 提出了一种受LLM启发的NeRF框架,称为GNT-MOVE,通过引入Experts混合(MoE) transformers,显著推动了复杂场景上可泛化新视角合成的前沿。


  • 为了将MoE量身定制为可泛化的NeRF,引入了一个共享的永久Expert来实现跨场景渲染的一致性,并引入了一个几何感知的空间一致性目标来实现视图间的空间平滑性。


  • 在复杂场景基准测试中进行的实验证明了GNT-MOVE在跨场景泛化上的有效性,包括零样本和少样本的设置。

NeRF是一种基于神经辐射场的模型,可以通过体素渲染在新视图合成方面取得出色的性能。然而,原始的NeRF需要在每个新场景中重新训练,而且对于跨场景泛化的应用有限。为了解决这个问题,有一些工作通过引入卷积编码器和共享的MLP来模拟不同对象,而另一类工作则采用Transformer结构并结合极线约束实现了实时的新视图合成。作者的方法也基于Transformer,并定制了MoE思想,以在跨场景泛化和场景特定化之间取得平衡,并可以模拟多样复杂的场景和呈现更加逼真的结果。Mixture-of-Experts(MoE)是一种根据学习或临时路由策略,通过组合子模型进行输入相关计算的方法。MoE在多个领域有广泛的成功应用,并且最近的进展提出了稀疏门控的MoE方法,以在不牺牲推理成本的情况下扩大语言模型的容量,并促进具有不同功能的不同模块的组合泛化。这有助于发挥非常潜在的组合式未见泛化能力,并实现出色的准确性和效率的平衡。

作者:小张Tt  | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf和代码。

添加微信:dddvisiona,备注:自动驾驶,拉你入群。文末附行业细分群。

GNT是一种纯统一的基于Transformer的架构,通过两个阶段的转换器来实时重构NeRFs。视图转换器根据相邻视图的对极线信息预测每个点的特征,射线转换器在射线上组合特征来计算颜色。MoE层包含多个专家和一个路由器,通过路由器的选择将特定数量的专家的输出加权求和。该方法具有很好的性能,适用于其他基于Transformer的NeRFs。

在本节中,作者使用MoE层来扩展GNT模型。主要流程如图1所示。作者的设计原则是对原始的GNT模型进行必要且最小程度的修改,以保留其标准化的架构和易用性。

在视觉领域,作者提出了一种混合视图专家的方法,在基本流程中应用了MoE模块。通过利用UNet从2D图像中提取几何、外观和局部光传输信息,并结合视图变换器,作者能够估计出点级渲染参数。为了根据渲染属性特定定制不同的组件,作者在视图变换器中使用了稀疏激活的MoE层。在训练过程中,作者通过稀疏路由的变异系数对专家选择进行了正则化,以平衡和多样化地使用专家。这种方法的优势在于能够更好地捕捉不同视图间的细微差别,并避免表示崩溃。这个方法对于NeRF的应用尤为适用。

本文针对在MoE和NeRF中缺乏跨场景一致性和空间平滑性的问题进行了研究。为了解决这个问题,作者引入了两个层次的定制化,即共享的永久专家和几何感知的空间一致性。在架构层面,作者通过引入一个共享的永久专家来提升跨场景一致性。这个专家负责在不同场景之间融合共同知识。在目标层面,作者提出了一个空间一致性目标,通过鼓励接近空间的点选择相似的专家,并使用几何距离对专家选择进行重新加权。通过这两个定制化,作者提高了MoE和NeRF之间的平衡,从而使NeRF能够更好地跨场景泛化和特化。

在本研究中,作者通过引入Mixture-of-Experts(MoE)和其他定制设计,改进了GNT-MOVE方法,使其在跨场景泛化方面取得了显著的进展。作者的方法在零样本和少样本设置下都表现出色,不仅在标准数据集上,而且在具有复杂材料和光效果的挑战性数据集上都表现出色。实验结果显示,GNT-MOVE比标准GNT具有更好的性能,尤其在挑战性的场景和光照条件下。作者还通过可视化专家选择和深度图等方式展示了他们的方法的有效性。总的来说,该研究为通用新视图合成任务提供了一种强大且有效的方法,具有潜力应用于各种复杂的视觉场景。这里也推荐「3D视觉工坊」新课程《深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战》。

本研究引入了一个大规模的基于部件的跨类别物体操作基准PartManip,包括六项真实环境中的任务。为了解决可泛化的基于视觉的策略学习问题,作者首先介绍了一种经过精心设计的基于状态的部件感知专家学习方法,然后是一个合理的从状态到视觉的蒸馏过程,以及一种域泛化技术,以提高跨类别泛化能力。通过广泛的仿真实验,作者证明了我们的方法在先前工作中的卓越性能。作者还在实际世界中展示了其性能。


如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com

ICCV 2023 I NeRF新突破,从NeRF到transformers!的评论 (共 条)

分享到微博请遵守国家法律