ICCV2023 I Nerf超进化?快速高效的的城市渲染方法
作者: 小张Tt | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf和代码链接。
添加微信:dddvisiona,备注:三维重建,拉你入群。文末附行业细分群。
NeRFs是一种神经辐射场模型,在视觉领域取得了巨大成功。然而,现有方法由于射线行进渲染造成了资源消耗过大的问题。为了高效构建城市级辐射场,作者设计了可变形神经网格原语(DNMP),用于参数化整个场景。DNMP是一种神经变体的经典网格表示,具备了栅格化渲染的高效性和强大的神经表示能力,可用于逼真的图像合成。DNMP包含一组连接的可变形网格顶点和配对的顶点特征,用于参数化局部区域的几何和辐射信息。为了优化效果并减少存储开销,作者将每个原语的形状从低维潜空间解码。渲染颜色通过视角依赖的多层感知机(MLP)从顶点特征中解码,结合栅格化插值。DNMP提供了一种新颖的城市级场景表示范式,具有高质量的渲染效果和低计算成本。作者的方法在城市场景的新视角合成方面表现优秀,并且具备快速渲染和低内存使用量的特点。作者还提供了一个轻量级版本,运行速度比原始的NeRFs快33倍,接近高度优化的Instant-NGP的性能。
本文提出了一种用于大规模环境的高效辐射场表示方法,通过结合高效的基于网格的渲染和强大的神经表示。该方法使用可变形神经网格单元(DNMP)自底向上地表示整个辐射场,每个DNMP参数化一个局部区域的几何和辐射。为了减少存储空间开销,将网格顶点从低维潜在编码解码,并利用光栅化流水线进行特征插值。采用分层体素化方法对场景进行表示,并使用具有分级大小的DNMP分别表示辐射场。该方法在城市数据集上实现了逼真的渲染,并在新视角合成方面表现出色。与普通的NeRF相比,该方法具有更快的速度和较少的内存占用。此外,该方法可以轻松嵌入到现代图形渲染流水线中,并支持场景编辑,提供了潜在的应用前景,如虚拟现实和增强现实。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。
本文主要介绍了神经渲染和3D形状重建领域的相关工作。早期的神经渲染技术通过将3D信号投射到2D图像平面,并训练2D卷积神经网络将投射信号映射到最终输出图像来进行渲染。然而,这种方法没有对3D空间进行显式的物理建模,导致在合成新视角时性能瓶颈。最近的基于体素渲染的方法通过在隐式神经函数中存储场景的密度和辐射值来解决这个问题,并实现了合成新视角。然而,这些方法在进行体素采样时需评估隐式函数数千次,导致训练和推理效率低下。为了加速NeRFs,研究人员提出了许多方法,如使用代理场景结构或表面信息来降低空白区域样本数量,或通过与高效数据结构的结合来改善推理和训练速度。然而,这些方法缺乏明确的表面约束,可能导致视角变化下视图合成的鲁棒性不足,同时在现代图形渲染流程和场景编辑方面存在难题。在户外场景中,一些研究人员尝试将NeRF扩展到户外,但仍然依赖昂贵的体素采样,浪费了大量计算资源。在3D形状重建方面,经典的流程通常是通过结构运动估计相机位姿,然后利用多视图立体恢复深度。隐式场方法通常更加鲁棒,但从表示中提取网格需要昂贵的等值面提取步骤。之前的一些工作尝试使用可变形网格进行形状重建和渲染,但这些技术对实际嘈杂的数据敏感且通常局限于对象级的形状优化。
为了有效地参数化大规模城市辐射场,作者提出了可变形神经网格基元(DNMP)。DNMP是经典网格表示的神经变种,它兼具基于光栅化的高效渲染和强大的神经表示能力。DNMP能够以一种富有表现力和紧凑的方式建模局部三维空间的几何和辐射信息,而整个辐射场由一系列DNMP层次性地构成。
本节介绍了可变形神经网格基元(DNMP),用于参数化整个场景,并且利用神经特征的辐射表示能力。DNMP包含了一组可变形的网格顶点和可学习的顶点辐射特征。为了限制形状优化的自由度,使用自编码器对原始形状进行参数化。形状编码器将不同形状网格的几何信息编码为紧凑的潜码,形状解码器将潜码解码为DNMP的顶点。编码后的辐射信息通过光栅化快速获取,从而提高了辐射场的视角一致性。
本节介绍了基于DNMP的场景表示方法。通过为场景中的每个体素分配一个DNMP来表征其几何和辐射信息。通过优化潜码,利用估计的深度图和预训练的形状解码器,作者可以获得几何形状的优化结果。为了应对室外环境中的缺失部分,作者使用分层表示方法,并通过对不同层级的体素进行初始化和优化来处理缺失区域。
本节主要介绍了辐射建模和视图合成的过程。通过栅格化和辐射特征插值,作者收集与像素渲染相关的特征。利用视图依赖因子和辐射特征,通过神经网络进行预测,得到渲染点的辐射值和不透明度。通过混合不同层级的渲染结果,作者可以更好地保留纹理细节。在训练中,作者利用相机图像来监督辐射特征学习。然而,对于非结构化区域,作者采用了Mip-NeRF方法来处理。整体而言,该方法能够较好地处理场景渲染并保留纹理细节。
本研究提出了一种基于深度网络和点云的新颖视图合成方法。在实验中,作者使用了两个城市数据集(KITTI-360和Waymo Open Dataset)进行评估。评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)。通过消融实验,作者验证了所提出方法的有效性。此外,作者还与其他基线方法进行了比较,并展示了所提出方法的竞争性能。作者还分析了方法的效率,并证明了其相对较高的效率。最后,作者展示了方法在场景编辑方面的应用。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。
本研究提出了一种基于Deformable Neural Mesh Primitives (DNMPs)的新颖神经场景表示方法,用于城市视图合成。该方法结合了经典网格的高效性和神经特征的表示能力。整个场景被分割成体素,并为每个体素分配一个DNMP来参数化局部区域的几何和辐辉。通过从紧凑的潜置空间解码DNMP的形状,对形状优化的自由度进行约束。将辐射特征关联到DNMP的每个网格顶点中进行编码。针对两个公共户外数据集进行了大量实验,验证了所提出组件的有效性,并展示了所提出方法的最先进性能。此外,由于基于网格的紧凑和高效的表示,与之前的方法相比,作者我们实现了更快的推理速度和更低的峰值内存消耗。然而,尽管作者实现了卓越的渲染质量和资源效率,但当前版本的框架仍基于静态场景的假设。未来,作者计划将我们的方法扩展到处理移动物体,以适用于更普遍的应用场景。