重磅!CVPR2023立体匹配文献合集
CVPR2023立体匹配相关文献合集汇总,在公众号「3D视觉工坊」后台,回复「原论文」,即可获取。
论文题目:Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues
作者:Stefanie Walz;Mario Bijelic;Andrea Ramazzina;Amanpreet Walia;Fahim Mannan等人
作者机构:Mercedes-Benz(梅赛德斯-奔驰);Google Inc(普林斯顿大学);Algolux(一家全球公认的计算机视觉公司)
论文链接:https://arxiv.org/pdf/2305.12955.pdf
项目代码:https://github.com/princeton-computational-imaging/GatedStereo
项目主页:https://light.princeton.edu/publication/gatedstereo/
本文提出了一种名为Gated Stereo的高分辨率和远距离深度估计技术,其基于活动门控立体图像进行运算。Gated Stereo通过利用多视角线索和来自活动门控的飞行时间强度线索,以及活动捕获和高动态范围的被动捕获,实现了立体深度信息的高效估计。为了实现这个目的,作者提出了一种具有单目和立体深度预测分支的深度估计方法,在最终的融合阶段组合这两个分支。每个块都通过监督和门控自监督损失的组合进行监督学习。为了便于训练和验证,作者获取了一组用于汽车场景的长距离同步门控立体数据集。研究发现,在距离160米以内的范围内,与最佳RGB立体方法相比,该方法的平均绝对误差(MAE)提高了50%以上,与现有的单目门控方法相比,MAE提高了74%。
论文题目:Hybrid Transformer and CNN Attention Network for Stereo Image Super-resolution
作者:Ming Cheng;Haoyu Ma;Qiufang Ma;Xiaopeng Sun;等人
作者机构:ByteDance Inc(字节跳动);Peking University Shenzhen Graduate School(北京大学深圳研究生院)
论文链接:https://arxiv.org/pdf/2305.05177.pdf
多阶段策略在图像修复任务中被广泛应用,虽然基于Transformer的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中尚未展现出CNN-based方法的显著优势。这可以归因于两个关键因素:首先,当前单图像超分辨率Transformer在该过程中无法利用互补的立体信息;其次,Transformer的性能通常依赖于足够的数据,在常见的立体图像超分辨率算法中缺乏这些数据。为了解决这些问题,作者提出了一种混合Transformer和CNN注意力网络(HTCAN),它利用基于Transformer的网络进行单图像增强和基于CNN的网络进行立体信息融合。此外,作者采用了多块训练策略和更大的窗口尺寸,以激活更多的输入像素进行超分辨率。作者还重新审视了其他高级技术,如数据增强、数据集成和模型集成,以减少过拟合和数据偏差。最后,作者的方法在NTIRE 2023立体图像超分辨率挑战的Track 1中获得了23.90dB的分数,并成为优胜者。
论文题目:Learning to Render Novel Views from Wide-Baseline Stereo Pairs
作者:Yilun Du ;Cameron Smith ;Ayush Tewari等人
作者机构:MIT CSAIL(全称是MIT’s Computer Science and Artificial Intelligence Laboratory即麻省理工学院 计算机科学与人工智能实验室)
论文链接:https://arxiv.org/pdf/2304.08463.pdf
项目代码:https://github.com/yilundu/cross_attention_renderer
项目主页:https://yilundu.github.io/wide_baseline/
作者引入了一种方法,可以仅使用单个宽基线立体图像对生成新视角。在这种具有挑战性的情况下,3D场景点只被正常观察一次,需要基于先验进行场景几何和外观的重建。作者发现从稀疏观测中生成新视角的现有方法因恢复不正确的3D几何和可导渲染的高成本而失败,这阻碍了其在大规模训练中的扩展。作者通过构建一个多视图转换编码器、提出一种高效的图像空间极线采样方案来组装目标射线的图像特征,以及一个轻量级的基于交叉注意力的渲染器来解决这些问题。作者的贡献使作者的方法能够在一个大规模的室内和室外场景的真实世界数据集上进行训练。作者展示了本方法学习到了强大的多视图几何先验,并降低了渲染时间。作者在两个真实世界数据集上进行了广泛的对比实验,在保留测试场景的情况下,明显优于先前从稀疏图像观测中生成新视图的方法并实现了多视图一致的新视图合成。
论文题目:POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo
作者:Lixin Yang;Jian Xu;Licheng Zhong等人
作者机构:Shanghai Jiao Tong University (上海交通大学);Shanghai Qi Zhi Institute(上海期智研究院);Nreal(一家消费级增强现实设备生产商)
论文链接:https://arxiv.org/pdf/2304.04038.pdf
项目代码:https://github.com/lixiny/POEM
让神经网络捕捉3D几何感知特征在基于多视图的视觉任务中至关重要。以前的方法通常将多视图立体成像的3D信息编码为2D特征。相比之下,作者提出了一种名为POEM的新方法,直接在嵌入在多视图立体成像中的3D点上进行操作,用于重建手部网格。点是3D信息的自然形式,也是跨视图融合特征的理想介质,因为它在不同视图上有不同的投影。因此,作者的方法基于一个简单而有效的思想,即复杂的3D手部网格可以由一组嵌入到多视图立体成像中、携带多视图图像特征并包围手部的3D点表示。为了利用点的优势,作者设计了两个操作:基于点的特征融合和跨点集注意机制。在三个具有挑战性的多视图数据集上的评估结果表明,POEM在手部网格重建方面优于现有的最先进方法。
论文题目:Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Estimation
作者:Liyan Chen;Weihan Wang;Philippos Mordohai等人
作者机构:Stevens Institute of Technology(史蒂文斯理工学院)
论文链接:https://arxiv.org/pdf/2304.00152.pdf
项目代码:https://github.com/lly00412/SEDNet
作者提出了一种新的损失函数,用于在深度立体匹配中进行视差和不确定性联合估计。作者的工作旨在精准估计不确定性,并观察到多任务学习通常会导致所有任务的性能提升。作者表明,这可以通过在网络的损失函数中使用KL散度项来要求不确定性分布与视差误差分布匹配来实现。作者使用可微的软柱状图技术来近似分布,以便可以将其用于损失函数中。作者对大规模数据集上的视差和不确定性预测效果进行了实验评估,并观察到显著的改进。
作者:Fabio Tosi;Alessio Tonioni;Daniele De Gregorio等人
作者机构:University of Bologna(博洛尼亚大学);Google Inc(全球最大的搜索引擎之一);Eyecan.ai(韩国专注于开发眼动追踪技术的公司)
论文链接:https://arxiv.org/pdf/NeRF
项目代码:https://github.com/fabiotosi92/NeRF
项目主页:https://nerfstereo.github.io/
作者引入了一种新颖的框架,可以轻松地且无需任何真实标签训练深度立体网络。通过利用最先进的神经渲染解决方案,作者从单个手持相机拍摄的图像序列中生成立体训练数据。在此基础上,进行NeRF监督的训练过程,通过渲染的立体三元组来补偿遮挡和作为代理标签的深度图。这样就能获得能够预测清晰且详细的视差地图的立体网络。实验结果表明,使用这种方法训练的模型在具有挑战性的Middlebury数据集上比现有的自监督方法提高了30-40%,填补了到监督模型的差距,并且大多数时间在零样本泛化上表现得更好。
欢迎关注微信公众号「3D视觉工坊」,加群/文章投稿/课程主讲,请加微信:dddvisiona,添加时请备注:加群/投稿/主讲申请
论文题目:Implicit View-Time Interpolation of Stereo Videos using Multi-Plane Disparities and Non-Uniform Coordinates
作者:Avinash Paliwal;Andrii Tsarov;Nima Khademi Kalantari等人
作者机构:Texas A&M University (德州农工大学);Leia Inc(一家致力于将人工智能与纳米技术相结合,创造无与伦比的3D体验的公司)
论文链接:https://arxiv.org/pdf/2303.17181.pdf
本文提出了一种用于立体视频视角时间内插的方法。具体而言,作者基于X-Fields构建了一个可插值的映射,使用卷积解码器将输入坐标映射到2D RGB图像。作者的主要贡献是分析和识别了在应用程序中使用X-Fields时的问题来源,并提出了新的技术来克服这些挑战。具体而言,作者观察到X-Fields无法隐式地插值大基线相机的视差。因此,作者提出多平面视差来减少立体图像中物体的空间距离。此外,作者提出了非均匀时间坐标来处理视频中的非线性和突发性运动。作者还引入了一些简单但重要的改进措施,这些措施对X-Fields进行了改进。作者证明了我们的方法能够产生比现有技术更好的结果,并且在接近实时的速率下运行,并具有较低的内存和存储成本。
作者:Nishant Jain;Suryansh Kumar;Luc Van Goo等人
作者机构:Indian Institute of Technology (印度理工学院);ETH Zurich(苏黎世联邦理工大学)
论文链接:https://arxiv.org/pdf/2303.17094.pdf
本文介绍了一种改进自由移动相机拍摄图像的新视角合成的方法。该方法关注的是室外场景,在这些场景中,精确恢复几何脚手架和相机姿态非常具有挑战性,使用最先进的稳定视点综合(SVS)方法会导致较差的结果。SVS和相关方法在室外场景中失败主要是由于(i)过度依赖多视图立体(MVS)进行几何脚手架恢复以及(ii)假设COLMAP计算的相机姿态为最佳估计,尽管已经研究证明MVS 3D重建精度仅限于场景视差,并且相机姿态精度对于关键点对应性选择很敏感。本文提出了一种有原则的方法来增强新视角合成解决方案,从多视图几何的基础中汲取灵感。通过利用MVS和单目深度的互补性行为,作者得到了更好的近距离和远距离点的场景深度。此外,作者的方法通过多次旋转平均图优化共同优化相机姿态和基于图像的渲染。恢复的场景深度和相机姿态有助于更好地视角相关的整个场景表面特征聚合。作者在流行的基准数据集(例如Tanks and Temples)上对作者的方法进行了广泛评估,结果显示与先前的技术相比,在视角合成结果上有了实质性的改进。例如,作者的方法在Tank和Temples上显示了1.5dB的PSNR改进。在测试其他基准数据集(如FVS,Mip-NeRF 360和DTU)时观察到类似的统计结果。
论文题目:Multi-View Azimuth Stereo via Tangent Space Consistency
作者:Xu Cao ;Hiroaki Santo ;Fumio Okura等人
作者机构:Osaka University(大阪大学)
论文链接:https://arxiv.org/pdf/2303.16447.pdf
本文提出了一种仅使用校准多视图表面方位图进行3D重建的方法。作者的方法,多视图方位角立体,对于无纹理或有光泽表面比传统的多视图立体方法更为有效。作者引入了切向空间一致性的概念:表面点的多视图方位观测应该被提升到相同的切向空间。利用这一一致性,作者通过优化神经隐式表面表征来恢复形状。作者的方法利用光度立体方法或偏振成像的强大方位角估计能力,同时避开了潜在的复杂天顶角估计。使用来自各种来源的方位图的实验验证了作者的方法在没有天顶角的情况下可以准确地恢复形状。
作者:Nick Heppert;Muhammad Zubair Irshad;Sergey Zakharov等人
作者机构:University of Freiburg(弗莱堡大学);Georgia Institute of Technology(佐治亚理工学院);Toyota Research Institute (TRI) (丰田研究所);Stanford University(斯坦福大学)
论文链接:https://arxiv.org/pdf/2303.15782.pdf
项目主页:http://carto.cs.uni-freiburg.de/
项目代码:https://github.com/SuperN1ck/CARTO
本文介绍了一种新颖的方法CARTO,用于从单个立体RGB观测重建多个关节对象。作者使用隐式以物体为中心的表示,并为多个物体类别学习单个几何和关节解码器。尽管在多个物体类别上进行训练,作者的解码器的重建精度与为每个类别分别训练定制的解码器的方法相当。结合我们的立体图像编码器,作者可以在一个前向传递中推断多个未知对象的3D形状、6D姿态、大小、关节类型和关节状态。与两阶段管道相比,作者的方法在新实例的mAP 3D IOU50中实现了20.4%的绝对改进。推理时间很快,可以在NVIDIA TITAN XP GPU上以1 HZ的速度运行,适用于八个或更少个物体。虽然只在模拟数据上进行了训练,但CARTO可以迁移到真实世界的物体实例。
作者:Zongrui Li;Qian Zheng; Boxin Shi等人
作者机构:National Institute of Informatics (NII)(国立情报学研究所);
论文链接:https://arxiv.org/pdf/2303.15724.pdf
本文介绍了SDM-UniPS,一种具有突破性的、可扩展的、详细的、无蒙版的和通用的光度立体网络。作者的方法可以恢复惊人复杂的表面法线图,甚至在未知的、空间变化的照明条件下在不受控制的环境中拍摄。作者扩展了以前的通用光度立体网络,提取空间-光特征,利用高分辨率输入图像中的所有可用信息,并考虑表面点之间的非局部相互作用。此外,作者提出了一个新的合成训练数据集,包括真实场景中的各种形状、材料和照明情况。通过广泛的评估,作者证明了我们的方法不仅在公开基准测试中比经过校准的、特定照明技术表现更好,而且即使没有对象掩模,作者的方法在使用更少的输入图像时也表现出色。
作者:Zongrui Li;Qian Zheng; Boxin Shi等人
作者机构:School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore(新加坡南洋理工大学电气与电子工程学院)等
论文链接:https://arxiv.org/pdf/2303.15101.pdf
由于未知光线带来的固有歧义,未校准光度立体(UPS)是具有挑战性的。虽然非朗伯物体减轻了歧义,但对于引入不规则阴影和具有类似各向异性反射的复杂物质的更普遍的具有复杂形状的物体来说,问题仍然难以解决。为了利用阴影和反射信号来解决UPS问题并提高对一般材质的性能,作者提出了DANI-Net,一个具有可微阴影处理和各向异性反射建模的反渲染框架。与大多数先前使用不可微阴影图和假设各向同性物质的方法不同,作者的网络通过两个可微分路径受益于阴影和各向异性反射的线索。多个实际数据集上的实验显示了作者优越而稳健的性能。
作者:HyunJun Jung;Patrick Ruhkamp;Guangyao Zhai等人
作者机构:Technical University of Munich(慕尼黑工业大学);Huawei Noah’s Ark Lab(华为Noah’s Ark Lab)等
论文链接:https://arxiv.org/pdf/2303.14840.pdf
解决密集三维视觉问题的基于学习的方法通常在三维传感器数据上进行训练。测量距离的所使用的原则提供了优点和缺点。由于缺乏多模式数据集,这些通常不会在文献中进行比较或讨论。无纹理区域对于运动结构和立体成像是有问题的,反射材料对于主动感知存在问题,透明物体的距离使用现有硬件测量会比较棘手。对不准确或损坏的数据进行训练会产生模型偏差并阻碍了广泛的适用能力。如果传感器测量被认为是评估过程中的基本事实,这些影响往往会被忽略。本文研究了传感器误差对深度估计和重建的密集三维视觉任务的影响。作者严谨地展示了传感器特性对学习预测的显着影响,并注意到来自日常家庭环境中各种技术的广泛问题。为评估,作者引入了一个经过精心设计的数据集,包括来自商品传感器(D-ToF, I-ToF, 被动/主动立体和单眼RGB + P)的测量。作者的研究量化了传感器噪声的显著影响,并为改进密集视觉估计和目标数据融合铺平了道路。
作者:Gangwei Xu ;Xianqi Wang ;Xiaohuan Ding等人
作者机构:Huazhong University of Science and Technology(华中科技大学)
论文链接:https://arxiv.org/pdf/2303.06615.pdf
项目代码:https://github.com/gangweiX/IGEV
循环全对偶场变换(RAFT)在匹配任务中展现出了巨大的潜力。然而,全对偶相关缺乏非局部的几何知识并且难以处理在不定型区域中的局部歧义。因此,在本文中,作者提出了迭代几何编码体(IGEV-Stereo),这是一种用于立体匹配的新型深度网络架构。所提出的IGEV-Stereo建立了一个合并的几何编码体,编码了几何和上下文信息以及局部匹配细节,并通过迭代索引来更新视差图。为了加速收敛,作者利用GEV来回归ConvGRUs迭代的准确起始点。作者的IGEV-Stereo在KITTI 2015和2012(反射式)的所有已发布方法中排名第一,并且是前十种方法中速度最快的。此外,IGEV-Stereo具有强大的跨数据集泛化能力和高效的推理效率。作者还扩展了IGEV到多视图立体(MVS),即IGEV-MVS,在DTU基准上取得了竞争性的准确性。
论文题目:Spring: A High-Resolution High-Detail Dataset and Benchmark for Scene Flow, Optical Flow and Stereo
作者:Lukas Mehl ;Jenny Schmalfuss ;Azin Jahedi等人
作者机构:Institute for Visualization and Interactive Systems, University of Stuttgart(斯图加特大学);
论文链接:https://arxiv.org/pdf/2303.01943.pdf
项目主页:https://spring-benchmark.org/
虽然最近的运动和立体估计方法恢复了前所未有的细节,但是这些高度详细的结构在现有基准数据和评估方法中都没有得到充分的反映。因此,作者介绍了Spring-一个大型的、高分辨率、高细节的计算机生成场景流、光流和立体基准。基于开源渲染软件Blender电影“Spring”中的场景,它提供了具有最先进视觉效果和地面真实训练数据的照片级高清数据集。此外,作者提供了一个网站来上传、分析和比较结果。使用基于超分辨率UHD真实场景标准的新型评估方法,作者的Spring基准可以评估细节结构的质量,并提供不同图像区域的更详细的性能统计数据。就地面真实帧的数量而言,Spring比唯一的场景流基准KITTI 2015大60倍,比经过充分验证的MPI Sintel光流基准大15倍。最近在作者基准上的方法的初步结果表明,估计细节是具有挑战性的,因为它们的精度有很大的改进空间。
论文题目:Multi-View Stereo Representation Revisit: Region-Aware MVSNet
作者:Yisu Zhang;Jianke Zhu等人
作者机构:Zhejiang University(浙江大学);Alibaba-Zhejiang University Joint Research Institute of Frontier Technologies(阿里巴巴-浙江大学前沿技术联合研究中心)
论文链接:https://arxiv.org/pdf/2303.16447.pdf
项目代码:https://github.com/xucao-42/mvas
基于深度学习的多视角立体已经成为一种强大的范例,可以从多个视角重建完整的几何细节对象。现有的大多数方法仅通过最小化预测点与光线和表面的交点之间的差距来估计每个像素的深度值,这通常忽略了表面拓扑结构。这对于无纹理区域和无法正确重建的表面边界至关重要。为了解决这个问题,作者建议利用点到表面距离,使模型能够感知更广泛的表面。为此,作者从代价体中预测距离体积,以估计表面周围点的符号距离。作者提出的RA-MVSNet是基于补丁感知的,因为通过将假设平面与表面补丁相关联,可以增加感知范围。因此,它可以增加无纹理区域的完成度,并减少边界处的离群值。此外,引入的距离体积可以生成具有精细细节的网格拓扑结构。与传统的基于深度学习的多视角立体方法相比,作者提出的RA-MVSNet方法通过利用符号距离监督获得了更完整的重构结果。在DTU和Tanks&Temples数据集上的实验证明,我们提出的方法实现了最先进的结果。