ICCV 2023 I NDC-Scene:单目三维语义场景补全的新突破
作者:小张Tt | 来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf和代码链接。
添加微信:dddvisiona,备注:三维测量,拉你入群。文末附行业细分群。
本文提出了一种新颖的归一化设备坐标场景完成网络(NDC-Scene),用于解决单目三维语义场景完成(SSC)中的几个关键问题。通过将二维特征图扩展到归一化设备坐标空间,而不是直接扩展到世界空间,以及使用深度自适应双解码器进行上采样和融合,提出的方法在单目SSC任务中表现出色,并在室外SemanticKITTI和室内NYUv2数据集上优于最先进的方法。
读者理解:
本文提出了一种新的方法,用于从单个图像中预测复杂的语义和几何形状,而无需3D输入。作者指出了当前最先进方法中存在的几个关键问题,包括射线到3D空间中投影的2D特征的特征模糊性,3D卷积的姿态模糊性以及不同深度层次上3D卷积中的计算不平衡性。为了解决这些问题,作者设计了一种新颖的规范化设备坐标场景补全网络(NDC-Scene),通过逐步恢复深度维度来将2D特征图直接扩展到规范化设备坐标(NDC)空间,而不是直接扩展到世界空间。实验结果表明,将大部分计算从目标3D空间转移到提议的规范化设备坐标空间有助于单眼SSC任务。此外,作者设计了一个深度自适应双解码器,用于同时上采样和融合2D和3D特征图,进一步提高了整体性能。广泛的实验证实了该方法在室外SemanticKITTI和室内NYUv2数据集上始终优于最先进的方法。这里也推荐「3D视觉工坊」新课程《保姆级线结构光(单目&双目)三维重建系统教程》。
作者贡献如下:
根据在现有方法中注意到的关键问题,提出了一种基于归一化设备坐标(NDC)空间的新方法,证明该空间是放置大部分3D计算单元的更好空间,而不是目标3D空间。
结合上述的相机空间预测,引入了一种创新的深度自适应双解码器,用于联合上采样3D和2D特征并将它们进行整合,从而获得更具韧性的表示。
实验证明,所提出的方法在室内外数据集上明显优于最先进的单目语义场景完成方法。
语义场景补全(SSC)是3D场景理解中的关键任务,具有虚拟现实、具身人工智能、自动驾驶等广泛应用。然而,大部分现有的SSC解决方案依赖于RGB图像和相应的3D输入,如深度图像、截断有符号距离函数(TSDF)等,以预测体积占用和对应的语义标签。最近,单目3D语义场景补全引起了越来越多的关注,旨在从单个RGB图像重建3D场景,从而消除了对额外3D输入的需求。然而,现有方法存在Feature-Size Ambiguity(FSA)、Feature-Depth Ambiguity(FDA)和Pose Ambiguity(PA)等模糊性。为了解决这些问题,作者提出了一种名为NDCScene的新型框架。作者使用归一化设备坐标(NDC)空间直接恢复3D特征图,从而解决了FSA和FDA产生的问题。此外,为了解决PA和CI问题,作者将大部分计算单元从目标3D空间转移到NDC空间。在大规模的室内和室外数据集上进行的实验证明了作者方法的优越性。
单视角三维重建的相关工作主要集中在从单个RGB图像中推断出物体级别或场景级别的三维几何形状。已有的方法主要关注单个物体的重建,通过编码器-解码器结构学习显式或隐式的三维物体表示,并重建物体的体积或表面几何。一些工作将单个物体的三维重建扩展到多物体场景中。对于场景级重建,一些方法将整体布局和物体估计结合起来,得到场景稀疏整体的三维重建,也有一些方法将2D全景分割的特征提升到三维,实现室内场景的密集估计。然而,现有方法在各种类型的场景中仍然存在一些问题,如稠密重建的性能和鲁棒性。另外,还有一些关于3D语义场景完成的研究,旨在通过不完整的视觉观察共同推断场景的几何和语义信息。一些先前的工作在室内小规模场景上取得了令人满意的结果,但是在大规模室外场景和室内场景中仍存在一定局限性。此外,许多现有方法需要额外的几何输入,如深度图像、激光雷达点云和截断有符号距离函数,但这些要求限制了方法的应用范围。最近的一些工作尝试通过仅使用单视角RGB图像作为输入进行场景完善,实现了不错的性能和泛化能力。但是现有方法在将共享的2D特征提升到3D射线中时仍存在一些局限性。为了解决这些问题,本方法提出了一种深度自适应双解码器,以更加稳健的方式在不同深度上恢复体素特征,从而在所有深度上具有强大的占用和语义表示能力。
本文介绍了一种针对单目3D语义场景补全任务的方法。所提出的方法通过在归一化设备坐标空间中进行深度重建操作,避免了投影中的大小和深度的模糊性问题,并通过对3D卷积的2D投影进行均匀分配,捕捉了接近场景中丰富细节的结构表示。同时,通过深度自适应的双解码器,实现了更强大的3D语义表示。实验证明将大部分的3D计算成本转移到归一化设备坐标空间中,可以显著提升性能。
本文提出了一种解决单目SSC中特征模糊性、姿态模糊性和不平衡的计算分配问题的方法。通过引入标准化设备坐标空间,使得3D卷积操作具有一致的范围,并在2D空间中均匀分配计算资源。此外,通过深度的渐进恢复,提供了更强的语义表示能力。实验证明,该方法在单目SSC任务中取得了良好的性能。
本文介绍了一种深度自适应双解码器(DADD),用于在规范化设备坐标空间中实现稳健的语义表示。DADD通过在两个解码器层的两个分支中同时进行2D和3D特征图的上采样,并使用深度自适应注意力模块将2D特征融合到3D特征中。通过实验证明,这种方法在性能上有明显的提升。此外,文章还介绍了深度自适应注意力模块的设计,以便于灵活地决定每个视野深度的3D特征在2D特征中的投影位置。这种方法有助于恢复深度场景的稳健表示。
本文介绍了NDC-Scene的实验评估,使用了NYUv2和SemanticKITTI数据集,对比了不同的SSC基线方法,并展示了NDC-Scene在几何和语义方面的优越性能。定性评估结果显示,NDC-Scene能够处理多样化形状的物体,实现更精确的场景布局和实例级信息。此外,消融研究验证了NDC-Scene在解决特征模糊、姿态模糊和计算不平衡问题方面的能力。这里也推荐「3D视觉工坊」新课程《保姆级线结构光(单目&双目)三维重建系统教程》。
本研究全面探讨了单目三维语义场景补全中当前最先进技术所面临的关键挑战。为了克服这些挑战,提出了一种新颖的标准化设备坐标(Normalized Device Coordinates,NDC)空间预测技术,通过逐步使用反卷积操作恢复深度维度,将二维特征图有效地扩展到三维空间。通过将大部分计算从目标三维空间转移到提出的标准化设备坐标空间,所提出的方法在单目SSC任务中实现了性能的提升。此外,本研究还提出了一种深度自适应双解码器,通过同时上采样和融合二维和三维特征图,进一步提高了整体性能。