ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！

2023-09-07 21:22 作者:3D视觉工坊 0人读过 | 我要投稿

0. 笔者个人体会

能感觉到最近有非常多基于NeRF的文章涌现，有优化NeRF性能、速度、正则化的，有改进NeRF的光度公式的，更多的还是把NeRF引入到其他场景解决传统问题。但针对NeRF的数据集还比较少见，主要是因为NeRF还是对数据集规模、图像质量、光度一致性这些要求太高了！

最近，慕尼黑工业大学就提出了ScanNet++，提供了高质量的3D场景、激光扫描和RGB图像，还有一些运动模糊和亮度变化的手机采集的RGBD图像。ScanNet++相较于ScanNet引入了大量的高分辨率场景和实例标签，非常适合评估新视点合成和3D语义理解任务！官网显示数据集在9月可以下载，感兴趣的小伙伴可以持续跟踪一下。

作者：泡椒味的口香糖 | 来源：3D视觉工坊

原论文：ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景的高保真数据集！

添加微信：dddvisiona，备注：SLAM，拉你入群。文末附行业细分群。

ScanNet++包含460个室内场景，每个场景都包含稠密实例语义标注，并且分辨率非常高！达到了亚像素级！除了3D场景外，ScanNet++还有两个视频序列，包括一个DSLR高质量RGB图像，还有一个手机采集的带运动模糊和光照变化的场景。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进》。

添加图片注释，不超过 140 字（可选）

还包含了新视点合成和语义理解的benchmark！

添加图片注释，不超过 140 字（可选）

整个数据集的组织架构也很规范，很容易理解和使用。而且作者也准备了基于数据集的很多工具，比如激光扫描对齐、COLMAP重建、去畸变、3D重建。

添加图片注释，不超过 140 字（可选）

2017年发布的ScanNet数据集本身也可以使用NeRF进行新视点合成。但是ScanNet本身是使用iPad RGB相机采集的，有一定的运动模糊和有限视野，因此ScanNet在NVS中效果并不好。但可以很明显得发现ScanNet++的3D重建精度远超于ScanNet。

添加图片注释，不超过 140 字（可选）

总之，数据集很优秀。未来很有可能成为新视点合成的主流数据集之一！

我们提出了ScanNet++，一个大规模的数据集，它耦合了捕获高质量和商品级的室内场景的几何和颜色。每个场景都由亚毫米分辨率的高端激光扫描仪捕获，以及从DSLR相机中注册的33兆像素图像和从iPhone中获得的RGB-D流。场景重建进一步用开放的语义词汇进行标注，带有标签歧义的场景被明确标注，以实现全面的语义理解。ScanNet++为新视点合成提供了一个新的现实基准，既可以从高质量的RGB捕获，也可以从商品级别的图像中获得，此外还为三维语义场景理解提供了一个新的基准，它全面地封装了多样化和模糊的语义标记场景。目前，ScanNet++包含460个场景，28万张捕获的DSLR图像，以及超过3.7 M的iPhone RGBD帧。

推荐3D视觉精品课程学习网址：http://www.3dcver.com

科研论文写作：

[1]国内首个面向三维视觉的科研方法与学术论文写作教程

基础课程：

[1]面向三维视觉算法的C++重要模块精讲：从零基础入门到进阶

[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]

[3]如何学习相机模型与标定？（代码+实战）

[4]ROS2从入门到精通：理论与实战

[5]彻底理解dToF雷达系统设计[理论+代码+实战]

工业3D视觉方向课程：

[1]（第二期）从零搭建一套结构光3D重建系统[理论+源码+实践]

[2]保姆级线结构光（单目&双目）三维重建系统教程

[3]机械臂抓取从入门到实战课程（理论+源码）

[4]三维点云处理：算法与实战汇总

[5]彻底搞懂基于Open3D的点云处理教程！

[6]3D视觉缺陷检测教程：理论与实战！

SLAM方向课程:

[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战

[1]彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战

[2]（第二期）彻底搞懂基于LOAM框架的3D激光SLAM：源码剖析到算法优化

[3]彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析

[4]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)

[5]（第二期）ORB-SLAM3理论讲解与代码精析

视觉三维重建

[1]彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进)

自动驾驶方向课程：

[1]深度剖析面向自动驾驶领域的车载传感器空间同步（标定）

[2]国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

[3]单目深度估计方法：算法梳理与代码实现

[4]面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)

[5]如何将深度学习模型部署到实际工程中？（分类+检测+分割）

最后

1、3D视觉文章投稿作者招募

2、3D视觉课程（自动驾驶、SLAM和工业3D视觉）主讲老师招募

3、顶会论文分享与3D视觉传感器行业直播邀请

新视点合成需要大规模、高质量的RGB数据集。现有数据集要么规模够大，但没有高质量的颜色和几何信息，要么质量够高，但是规模太小。

添加图片注释，不超过 140 字（可选）

相比之下，ScanNet++为室内场景提供了更大规模、高质量的图像。ScanNet++是使用亚毫米Faro Focus Premium激光扫描仪、DSLR相机、iPhone 13 Pro RGB-D这三个传感器独立采集的，之后进行多模态配准，以实现几何和颜色模态之间的无缝交互。

具体的采集过程中，每次激光扫描大约有4千万个点，每个场景分别在房间内的4个不同位置采集信息，这样尽可能最大程度上覆盖所有信息，最后再进行泊松重建获得场景网格。

DSLR相机使用的是带有鱼眼镜头的索尼Alpha 7 IV，每个房间采集200张图像用于训练。为了增加挑战性，用来测试的图像没有从训练轨迹上采样，而是由单独采集了15-25张图像。下图中蓝色就代表训练图像，红色代表测试图像。

添加图片注释，不超过 140 字（可选）

采集完激光和图像以后，使用COLMAP将DSLR和iPhone图像与激光扫描进行配准，获得两组图像在与扫描相同坐标系下的位姿。具体来说，就是先生成激光扫描的伪图像，渲染图象和真实图像配准以后，就可以将SfM位姿变换到与激光扫描相同的坐标系中，并恢复出度量尺度。还有个简单的外点剔除策略，就是当iPhone图像深度与渲染的激光扫描深度的平均差值> 0.3 m时，就认为配准不可靠。

添加图片注释，不超过 140 字（可选）

而且考虑到语义理解应用，作者还为每个场景都稠密标注了语义实例。

很有意思的一个事来了，语义标注在许多场景下可能是歧义的！也就是说，同一个像素可能同属于很多个类别，尤其是遮挡情况，这个问题其实在很多语义分割数据集中都没有考虑到。

这里，ScanNet++进行了大量的开放词汇显示标注，来解决语义歧义问题！

添加图片注释，不超过 140 字（可选）

最终获得的ScanNet++包含460个场景，280k帧DSLR图像，3.7M帧手机图像，1000+语义标签，总占地面积为15000m^2^，扫描点之间的平均距离为0.9 mm。整个ScanNet++包含两个benchmark，一个新视点合成，一个3D场景理解。460个场景分为360个训练场景、50个验证场景、50个测试场景。

在新视点合成任务上，作者分别探索了使用DSLR图像和iphone图像的性能。使用的方法就是原始的NeRF还有各种变体，评估指标就还是PSNR, LPIPS and SSIM。

先来看看使用DSLR图像的新视点合成。整个NVS的性能还是非常不错的，主要是因为DSLR图像本身视场很大，而且场景内各帧亮度一致（这个尤其重要）。另一方面，ScanNet++数据集有很多特殊纹理和反光的物体，这些物体合成起来很困难（比如遥控器），所以这也是NVS一个很重要的难点（可以水论文的点？）。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

相较而言，在手机图像上的性能就差很多了。这主要还是因为消费级相机不可避免的有运动模糊和亮度变化。因此，为了在不需要控制扫描过程的情况下对消费级数据进行NVS，NVS应该对有噪声的相机姿态、模糊和亮度变化具有鲁棒性。

添加图片注释，不超过 140 字（可选）

泛化性也是很重要的一个方面，很多NeRF是只能在单一的场景训练+合成的。但ScanNet++的场景足够多，从中学习到的通用先验可以提高Nerfacto的性能。

添加图片注释，不超过 140 字（可选）

语义理解任务上，是预测顶点上的标签并与真实标签进行比较，在5 %的采样网格上评估语义和实例分割方法。对比了4个语义分割方法和4个实例分割方法，整体性能很不错，对于体积比较大的物体分割很准确，但是对于小物体和低纹理物体分割性能就很差。从这个角度来说，也可以用这个数据集来分析语义分割对小目标和低纹理目标的分割性能。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进》。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

ScanNet++包含激光扫描、DSLR高质量RGB图像、消费级手机相机及多模态配准，还有长尾和多标签语义理解。数据集的主要用途是新视点合成和3D语义理解，其中的2D图像也可以用来做一些SfM。当然也有一些局限性，比如为了保证光度一致性，作者固定了所有DSLR的亮度，因此可能会有曝光过度或者曝光不足的情况。

这个数据集在9月应该就可以下载了，感兴趣的小伙伴可以追踪一下进度~

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶方向。细分群包括：[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群；[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群；[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些，还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

标签：

ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！

ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！

本文作者的其他文章

ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

ICCV 2023 Oral | ScanNet++重磅出世！3D室内场景高保真数据集！的评论 (共条)