3D全景分割新SOTA!LCPS:首篇LiDAR-Camera融合框架(ICCV23)
今天自动驾驶之心很荣幸邀请到Zhiwei Zhang来分享ICCV 2023最新中稿的激光雷达-相机全景分割的算法—LCPS,如果您有相关工作需要分享,请在文末联系我们!
论文作者 | Zhiwei Zhang
编辑 | 自动驾驶之心
大家好我是Zhiwei Zhang,很荣幸受邀来自动驾驶之心平台分享我们ICCV2023最新中稿的激光雷达-相机3D全景分割算法!

1. 任务简述
3D场景感知已经成为广泛应用在自动驾驶和机器人导航领域。3D全景分割是一项综合任务,需要同时进行语义分割和实例分割。目前主流的方法仅使用激光雷达数据,但图像数据可以提供丰富的纹理、颜色和区分信息来补充激光雷达信息。这启发我们使用图像作为额外输入以提高场景理解,而且自动驾驶系统通常配备RGB摄像头,这使得激光雷达-摄像头融合来进行全景分割更加可行。

图1 激光雷达点云与图像的区别。(a) 点云中的一个车辆段(橙色点),(b) 右下角绿色掩码显示使用“两阶段概率检测”方法有效检测到的车辆特征和密集的纹理、颜色特征,(b) 左上角蓝色掩码(部分遮挡)显示辅助检测远处小目标的图像特征。
2. 方法
目前,领先的3D全景分割方法仅使用激光雷达数据作为输入源。但是,我们观察到仅用激光雷达数据进行感知存在一些不足:1) 激光雷达点云通常稀疏且分布不均匀,如图1(a)所示,这使得3D网络很难捕获前景和背景之间的显著差异;2) 占用很少点的远处目标在视野中出现很小,不能有效检测到。
虽然激光雷达传感器和摄像头可以互补,但它们的融合策略仍然具有挑战性。现有的融合策略通常可以分为方案级融合、结果级融合和点级融合。然而,方案级融合和结果级融合侧重于集成2D和3D方案(或边界框结果)进行目标检测,这限制了它们在像分割任务这样的密集预测中的泛化能力。点级融合方法也存在问题:1) 激光雷达和摄像头传感器之间的不同工作频率没有考虑到,这可能导致特征对应关系错配;2) 点级融合是一对一的融合机制,大量图像区域无法映射到稀疏的激光雷达点,导致丰富的密集像素特征被浪费;例如,对于32线激光雷达,只有约5%的像素可以映射到相关点,而95%的像素特征会被丢弃。3) 点级融合方法通常使用简单的串联,这将排除投影落在图像平面之外的点,因为图像特征无法支持它们。
为了解决上述问题,我们提出了第一个激光雷达-摄像头全景分割网络LCPS。我们的方法在三个阶段进行激光雷达-摄像头融合:1)异步补偿像素对齐模块校准由传感器异步引起的坐标错位;2)语义感知区域对齐模块将一对一的点-像素映射扩展为一对多的语义关系;3)点云到体素特征传播模块整合几何和语义信息到全部点云。
实验表明,我们的方法以5.1%的PQ(79.8%对74.7%)超过了当前最好的Panoptic-PHNet在验证集上的表现。我们还证明了我们的融合策略的健壮性和有效性。
3. 方法详解
3.1. 概述
问题定义



图2 我们的激光雷达-摄像头全景分割网络(LCPS)的总体流程。LCPS由多模态编码、特征融合和全景预测模块组成。编码模块提取圆柱特征、MLP特征和图像特征。在融合阶段,MLP特征在ACPA和SARA的作用下与像素特征进行几何和语义对齐。接下来,PVP模块将融合的点特征与原始圆柱特征合并以获得融合特征。最后,全景预测模块输出四个头的预测,经后处理获得全景分割结果。
流程架构
我们的框架由多模态编码模块、激光雷达-摄像头特征融合模块和全景预测模块组成。在编码阶段,激光雷达点分别由圆柱体素编码器和MLP编码器编码,而图像由SwiftNet 编码。在融合阶段,MLP特征和图像特征首先通过拟议的异步补偿和语义感知区域对齐进行对齐,然后被串联成融合的点特征。随后,我们的点到体素传播模块(PVP)接受融合的点特征,并输出最终的圆柱表示。在预测阶段,骨干网络包括拟议的FOG头、语义分割头、热力图头和偏移头。后两个头遵循Panoptic-Polarnet ,其中我们回归一个二值对象中心掩模和BEV网格之间的2D偏移量。在推理期间,后处理将预测的前景BEV网格移位到其最近的中心,并将网格内的点集群到实例中。
3.2. 异步补偿像素对齐
将激光雷达和摄像机直接建立点与像素的映射,这样点就可以直接投影到图像平面并附上像素特征,这是一个直接的解决方案。但是,这种映射会由于摄像头和激光雷达传感器之间的异步频率导致错误映射。例如,在NuScenes数据集上,每个摄像头的操作频率为12Hz,而激光雷达传感器的操作频率为20Hz。
我们通过加入额外的异步补偿来改进点级融合,以实现一致的几何对齐。基本思想是将激光雷达点变换到对应图像捕获时的新的3D坐标系中。变换矩阵是通过考虑自主车辆的运动矩阵获得的。具体地,令和分别表示捕获激光雷达点云和相关图像的时间。然后我们有:



这些齐次变换步骤可以总结为以下方程:

总之,我们使用方程1为每个点获得像素对齐特征。我们的方法采用步骤2中的自运动补偿,实现了一个简单但更准确的几何一致特征对齐。

图3 (a) SARA模块概述,其采用逐像素语义分类器,构建CAMs并定位语义区域,(b) PVP模块概述,其涉及融合点特征的圆柱划分和注意力传播。
3.3. 语义感知区域对齐
由于激光雷达点云的稀疏性和有限的视野,只有一小部分图像特征可以与激光雷达点匹配。为解决这个问题,我们提出找到语义相关区域,将一对一映射扩展为一对多关系。我们通过使用图像CAM定位相关语义区域,提出语义感知区域对齐模块,如图3(a)所示。









最后,我们对区域特征集进行平均以获得单个向量,然后将其与MLP输出和像素对齐特征连接以构成融合的点特征。总之,与几何投影的一对一像素对齐不同,图像区域是以一对多的语义感知方式直接收集的。
3.4. 点云到体素特征传播
图像特征不支持摄像机视锥体之外的点;因此,这些点通常被排除。为了解决这个问题,我们提出点到体素特征传播模块,以便为整个点云整合几何和语义信息。为此,我们选择圆柱体素作为桥梁来完成融合过程,因为体素表示的张量形状与点数的改变不变,这自然地在原始点云和图像相关的点云子集之间提供了对齐。





3.5. 改进的全景分割

损失设计。总损失如下:


4. 实验


表1 NuScenes验证集上的3D全景分割结果。评价指标为PQ%。

表2 NuScenes测试集上的3D全景分割结果。我们的结果与其他不使用测试时增强和集成的方法进行了比较。

图4 NuScenes验证集上各类别的PQ%结果。
表3展示了SemanticKITTI验证集的比较结果。由于SemanticKITTI仅有两个前视摄像头,与NuScenes相比,更少的点可以与图像特征匹配,从而增加了激光雷达-摄像头融合的难度。尽管如此,我们的方法比仅用激光雷达的基准提高了3.3%的PQ,证明了我们的融合策略的健壮性和有效性。

表3 SemanticKITTI验证集上的3D全景分割结果。
5. 结论
我们第一个提出几何一致和语义感知的激光雷达-摄像头全景网络。作为一个新范式,我们有效利用了激光雷达-摄像头传感器的互补信息,并通过异步补偿像素对齐(ACPA)、语义感知区域对齐(SARA)和点到体素特征传播(PVP)以及前景对象选择门(FOG)掩模等模块,对点融合方法中的异步和利用问题做出了重要努力。这些模块增强了整体可区分性和性能。
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

视频官网:www.zdjszx.com
② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④【自动驾驶之心】平台矩阵,欢迎联系我们!
