欢迎光临散文网 会员登陆 & 注册

arXiv最新NeRF文章 l 混合神经辐射场中的零样本物体生成和混合

2023-07-11 13:03 作者:3D视觉工坊  | 我要投稿

作者:小张Tt | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论」即可获取论文pdf。

添加微信:CV3d007,备注:NeRF,拉你入群。文末附行业细分群。

Blended-NeRF是一个强大而灵活的框架,用于编辑NeRF场景中的特定兴趣区域。该框架利用预训练的语言-图像模型和现有NeRF场景上初始化的3D MLP模型,根据文本提示或图像块合成并混合对象到原始场景中的指定区域。使用3D ROI框实现局部编辑,并通过体积混合技术将合成内容与现有场景融合。为了获得逼真且一致的结果,该框架使用几何先验和3D增强技术提高视觉保真度。在定性和定量测试中,Blended-NeRF展示了比基准方法更大的灵活性和多样性的逼真多视图一致结果。此外,该框架适用于多种3D编辑应用。

近年来,在神经隐式表示领域取得了重要的进展,特别是对于3D场景的隐式表示。NeRFs是一种基于MLP的神经模型,可以通过体积渲染从有限数量的观测生成高质量的图像。然而,编辑NeRF表示的场景是具有挑战性的,因为场景是以隐式方式编码的,而不是以显式方式表示。此外,在NeRF表示的场景中混合新对象也是具有挑战性的,需要在隐式表示的基础上保持多个视角之间的一致性。与在图像中进行局部编辑不同,现有的方法主要集中在局部部分的移除、颜色变化和形状转移等简单操作上。本文提出了一种基于ROI的NeRF场景编辑方法,通过文本提示或图像修补来引导。该方法具有通用性,可以应用于任何实际场景中的任何区域,并生成自然且与现有场景无缝融合的结果。为了实现局部编辑,我们利用预训练的语言-图像模型和现有的NeRF模型,结合深度信息和体积混合方法,实现了对指定区域的编辑。为了获得更逼真、自然且一致的结果,我们还引入了增强和先验,如深度正则化、姿态采样和方向依赖的提示。经过广泛的实验验证,我们的方法在各种真实3D场景的编辑应用中取得了良好的效果。

神经隐式表示在计算机视觉和图形学领域中得到了广泛的应用,包括2D和3D。其优点之一是能够捕捉复杂多样的模式,并提供底层场景的连续表示。与高分辨率2D图像的显式表示,或者3D中的网格和点云相比,神经隐式表示具有独立于分辨率的紧凑性。NeRFs通过多层感知机(MLP)的权重学习将3D场景表示为连续体积和辐射场。给定3D位置𝑥和视角(𝜃,𝜙),NeRF在𝑥处输出密度𝜎和颜色𝑐。因此,可以通过沿视线𝒓(𝑡)积累每个像素的颜色和密度来渲染场景的新视图,使用近似的经典体渲染方程的积分规则。通过将输入嵌入高维空间中使用高频正弦位置编码𝛾(𝑥),可以更好地拟合数据中的高频变动。最近的工作利用了对比表示学习的进展,利用文本输入可以实现对生成对象内容的简单而灵活的控制。

给定一个由NeRF模型F0θ表示的现有3D场景和一个定位在场景内部的3D兴趣区域(ROI)盒子B,作者的目标是根据用户提供的文本提示或图像补丁修改ROI内的场景,得到一个修改后的场景。 ⊙ B应与用户提示一致,并且在盒子外与匹配( ⊙ (1−B) = ⊙ (1−B))。为了实现ROI内的编辑,作者使用原始场景模型F0θ的权重初始化一个3D MLP模型FGθ,并使用预训练的语言图像模型(如CLIP)将权重调整到给定的提示。作者通过GUI和原始NeRF模型F0θ的输出深度图来实现在任何区域进行局部编辑。使用给定的ROI盒子,可以分解辐射场,然后通过对和中的每个相机射线𝒓上的采样来执行原始辐射场和编辑后辐射场的无缝体积混合。同时,作者提出增强和先验方法来获得更真实和自然的结果,包括透射率和深度正则化、背景增强、姿态采样和方向依赖提示。整个方法的概述如图1a所示。详细描述了3D对象生成和混合过程,并介绍了模型目标和先验方法,以及在场景中放置3D盒子的图形界面。

本文提出了一种基于图像和文本驱动的3D合成和混合方法。给定一个由NeRF模型表示的3D场景、一个ROI框𝐵和一个摄像机姿态,作者使用和的副本作为生成框内内容的起始点。剩余的场景通过只渲染位于𝐵内的采样点的射线来保留。的训练受到语言-图像模型(如CLIP)的指导,以使生成的框内内容与用户提供的文本提示或图像补丁对齐。为了获得平滑混合的结果,作者使用相同的射线查询和两个模型。对于ROI外的采样点,作者使用推断的密度和颜色,而对于ROI内的采样点,作者使用两个辐射场的结果进行混合。的优化通过将用户提供的文本提示𝑦与生成框内的渲染视图𝐼𝑅𝑂𝐼的余弦相似度最小化来进行。在优化过程中,作者只使用位于𝐵内的3D采样点进行渲染。训练后,通过使用相同的射线查询和,将ROI内外的场景进行混合。为了实现平滑混合,作者使用距离平滑算子和alpha合成密度和颜色。在对象插入/替换模式下,使用进行训练,并在训练后进行混合。在对象混合模式下,将原始的和编辑后的场进行查询,并混合各个采样点的颜色和密度。最终生成混合图像的𝐼𝑅𝑂𝐼用于训练,并在训练后进行混合。

根据先前的研究和实验证明,在视觉领域中仅使用相似性损失建立的场景表示过于不受约束,作者通过引入先验和增强方法改进了结果的真实性。通过采样不同的摄像机姿态和改变背景,以及根据当前视角的提示,作者能够更好地描述物体的几何形状和视觉特征。透射损失和深度损失帮助生成更真实和具有体积感的场景。生成器的最终目标函数是相似性损失、透射损失和深度损失的加权和。有关实现细节和超参数的更多信息,请参考补充材料。

为了指定ROI并对场景进行分解,作者引入了一个图形界面,可以将一个轴对齐的3D盒子定位到场景中。通过给定盒子的中心位置和轴尺寸,使用原始的NeRF模型从相机位置渲染场景。然后,使用相机矩阵将3D盒子的边缘投影到图像平面上。为了提供关于盒子在场景中位置的直观反馈,利用场景的深度图去除部分被场景遮挡的盒子边缘。用户可以通过移动盒子和修改尺寸以精确和直观的方式指定ROI,并能够从任意视角检查位置。

在本文中,作者首先定性和定量地比较了作者的方法与基准Volumetric Disentanglement for 3D Scene Manipulation。接着,展示了作者建议的先验和增强对提升模型的保真度和视觉质量的效果。最后,展示了作者的框架所支持的几个应用。

在本节中,作者定性比较了作者的方法与Volumetric Disentanglement。尽管作者使用了项目页面提供的示例进行比较,作者的结果在颜色和文本对齐方面展现出了更丰富和自然的特性。为了定量评估,作者使用了CLIP Direction相似度、CLIP Direction一致性和LPIPS这三个度量指标。结果表明,作者的模型在所有指标上都优于基准模型,说明作者的生成对象更好地与输入文本描述匹配,并且从所有视角看更加一致,而且作者的方法成功地保持了场景的其他部分不变。

在这一部分中,作者通过使用R-Precision分数来衡量生成的图像与真实描述的对齐程度,展示了作者提出的增强和先验的重要性。作者选择了COCO数据集中的一部分样本作为真实标签,并通过在llff蕨类场景的空白区域插入合成的对象来进行测试。结果发现,方向依赖的提示对结果的改善作用不大,可能是由于场景的前向特性所致。当渲染受限于相机位置和视角,并且没有使用作者提出的深度先验时,结果会变差。在视觉上的比较也证明了这个结论,插入新对象时,使用作者提出的深度先验可以生成更具体积感、更自然和一致的对象。更多细节请参考补充材料。

本节展示了作者的框架在几个3D编辑场景中的应用可行性。通过放置ROI框并使用文本提示,作者可以合成新对象并将其融入原始场景。作者还展示了使用训练过程来替换现有对象和在ROI内混合原始对象和生成对象的方法。另外,作者利用特定的层训练和冻结过程实现纹理编辑,并使用特定公式实现无缝混合效果。通过这些应用,作者展示了框架的适用性和编辑效果。

在本文中,作者引入了一种新颖的方法,通过利用语言-图像模型来引导生成过程,并引入了新的先验知识、增强和体积混合技术,实现了将新对象无缝地融入现有的NeRF场景。通过测试不同场景和文本提示,作者验证了我们的框架在多个编辑应用中的适用性。但作者的方法存在一些限制,包括目前无法同时编辑场景中的多个对象以及ROI场景形状的局限性。作者也指出了可能出现的伪影问题,并提到了未来将结合扩散模型来进一步提高生成对象质量的工作。总体而言,作者的框架为实现自然且一致的编辑结果提供了一种有效的解决方案。


目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。
大家可以添加小助理微信: CV3d007,备注:加群+方向+学校|公司, 小助理会拉你入群。

arXiv最新NeRF文章 l 混合神经辐射场中的零样本物体生成和混合的评论 (共 条)

分享到微博请遵守国家法律