权威发布|计算机视觉重要研究进展(一)
传送门:计算机视觉重要研究进展(二)
引言
计算机视觉是研究用计算机来模拟人或生物视觉系统功能的学科,其目的是基于图像让计算机能够感知和理解周围世界,具体地说,就是对图像或视频数据中的场景、目标、行为等信息进行识别、测量和理解等。计算机视觉是人工智能的重要研究领域之一。
计算机视觉的前提和基础是成像技术。早在公元前鲁国时代,墨子就已经发现了小孔成像。之后直到19世纪,尼埃普斯(Joseph Nicéphore Nièpce)和达盖尔(Louis-Jacques-Mandé Daguerre)等发明了照相机。随后同世纪,惠斯登(Wheaston)发明了镜面立体装置(mirror stereoscope),证实了双眼视差现象:两个2D图片可以引起3D立体感觉。20世纪40年代,吉布森(Gibson)提出了光流的概念,并提出从二维平面的光流场可以恢复3D空间运动参数和结构参数的假说。20世纪60年代起,Ulf Grenander从数学的角度,整合代数、集合论和概率论,提出Analysis-by-Synthesis的思想,为计算机视觉奠定了重要的开创性的理论基础。同时期在视觉模式识别研究中,傅京孫(King-Sun Fu)提出了句法结构性的表达与计算,支撑了自底向上或自顶向下的视觉计算过程。20世纪70年代,马尔(David Marr)力图用计算机模拟人的视觉过程,使计算机实现人的立体视觉功能。马尔的视觉计算理论立足于计算机科学,并系统地概括了当时心理学、神经科学等方面的重要成就,其重要特征在于使视觉信息处理的研究变得更加严密,把视觉研究从描述的水平提高到有数学理论支撑且可以计算的层级,从此标志着计算机视觉成为了一门独立的学科。自从马尔视觉理论提出之后,计算机视觉得到了快速蓬勃的发展。虽然马尔视觉理论框架存在有不足,时至今日马尔视觉理论依然一直占据着计算机视觉的中心地位。依据马尔计算视觉理论框架,计算机视觉分为底层的图像特征提取与处理,中层的三维计算机视觉,以及高层的物体识别与场景理解。由于马尔视觉理论的系统性和主导性,过去几十年来的重要研究进展,多数集中在该理论框架之下。
2012年ImageNet大规模图像分类挑战赛中,采用的卷积神经网络(CNN)模型的深度学习方法带来了巨大的突破。其后基于深度学习的人脸识别等被广泛应用于各行各业。伴随着计算资源、人工智能的迅猛发展和实际应用的大量需求,马尔视觉理论曾经存在争议的地方有了更明确的解析。例如,对马尔视觉提出批评的“主动视觉”(Active Vision)和“目的和定性视觉”(Purpose and Qualitative Vision)的学者认为视觉过程必然存在人与环境的交互,认为视觉要有目的性,且在很多应用中不需要三维重建过程。但是,随着深度学习与人工智能发展对计算机视觉发展的促进,当今二维视觉的系列任务已经不能满足实际的应用需求,各种深度相机不断出现,二维视觉任务正在往三维拓展,越来越多的三维点云分析与处理的工作正在大量涌现,逐渐验证了马尔视觉理论的正确性。现阶段专用人工智能得到了充足的发展,未来将逐渐迈向通用人工智能的研究阶段。通用人工智能要求有“时间”、“空间”、“推理”的计算能力,马尔视觉理论框架正具备了前二者的能力,再融入“推理”,马尔视觉理论未来将会成为通用计算机视觉智能的基石。而对过去这个框架下的重要研究进展的了解对未来研究的指导也将具有重要意义。
本报告在对过去计算机视觉领域的研究进展进行分析总结的基础上,提炼出对学科发展和应用技术产生了重要影响或推动力的13项研究进展进行介绍。这些重要研究进展体现在计算成像学、初期视觉、图像增强与复原、图像特征提取与匹配、多视几何理论、摄像机标定与定位、三维重建、目标检测与识别、图像分割、图像场景理解、图像检索、目标跟踪、行为与事件分析等方面。
1. 计算成像学
自由空间中传播的光线携带着三维立体世界丰富的信息,是人类感知外部世界最重要的介质和载体之一。光是一种高维信号,不仅自身具有波长 、传播时间 等属性,在自由空间传播过程中还具有位置和方向属性,包括三维坐标( , , )和角度( , )。计算成像(Computational Imaging)学结合计算、光学系统和智能光照等技术,将成像系统采集能力与计算机处理能力相结合,创新性地将视觉信息处理与计算前移至成像过程,提出新的成像机制,设计新的成像光路,开发新的图像重构方法,能够在视觉信息的维度、尺度与分辨率等方面实现质的突破,使得对光信号进行高维高分辨率的采样成为可能。
1936年,Arun Gersun开始研究光线在空间中的分布,首次提出了“光场”(Light Field)的概念,用于描述光在三维空间的辐射特性。1991 年 Adelson等人进一步拓展和完善了光场的理论,提出了全光函数(Plenoptic Function),用一个 7D 函数表征光线的空间分布,即 ( , , , , , , )。1992 年 Adelson 等人在全光理论的基础上研制了光场相机原型。忽略光线在传播过程中的衰减(省略 、 ),Gortler 等人提出了流明图(Lumigraph)的概念,进一步忽略 ,将7D全光函数降维成 4D,即仅用( , )和( , )四个维度表示一条光线,包含了光线的空间和角度信息。1996年,Marc Levoy和Pat Hanrahan将光场引入计算机图形学,提出了光场渲染理论(Light Field Rendering),并对四维光场进行了双平面参数化。2005年5月,麻省理工学院、斯坦福大学、微软研究院的研究人员在麻省理工学院召开了首届计算摄影学(Computational Photography)研讨会。自2009年,IEEE计算摄影学国际学术会议(IEEE International Conference on Computational Photography)每年举行。斯坦福大学博士吴义仁(Ren Ng)在毕业论文中详细地描述了家用级光场相机的硬件、软件问题和其解决方案,2006年创立创立Lytro公司,并发布了Plenoptic 1.0手持式光场相机,随后又有Raytrix、Pelican等多家公司发布了光场相机,提出了多种不同的光场成像结构。光场理论发展的同时,过去的数十年间国内外各种各样的光场成像设备被研制和开发出来,特别是多种类型的工业级和消费级光场相机相继问世,比较有代表性的光场成像设备设计结构包括:光场采集支架(Light Field Gantry)、相机阵列(Camera Array)、微透镜型光场相机(Microlens-Based Light Field Camera)和可编码孔径相机(Programmable Aperture Camera)。近年来,光场成像技术多被用于VR/AR等沉浸式体验设备。同时,光场成像技术也被用在显微观测中,美国麻省理工学院和奥地利维也纳大学的研究人员使用光场显微镜第一次可在毫秒时间的尺度上,产生整个斑马鱼幼虫大脑的3D影像,相关成果发表在Nature Methods期刊。
相对传统光学成像,光场成像技术是重大技术革新,以其多视角、大景深、多聚焦成像等突出特性为模式识别、计算机视觉等学科的发展与创新带来了新机遇,目前已经在深度估计、三维重建、自动重聚焦、合成孔径成像、分割、识别等视觉任务中得到了应用。除了经典视觉任务外,光场成像还在视觉里程计 (Visual Odometry)、场景光流估计(Scene-Flow Estimation)、相机转动(Camera Rotation)估计和视频防抖(Video Stabilization)、全景拼接(Panoramic Stitching)等视觉任务中得到了一定程度的应用。
除了光场相机以外,考虑光线空间位置和传播方向的成像技术还有编码成像、散射成像、全息成像等典型代表。从光线传播的时间、相位维度进行光场的采集,则有单光子成像、飞行时间(ToF)成像等手段,而从波长、光谱层次进行研究,则衍生出可见光、近红外、高光谱等多种成像技术,另外还有利用光线的波动属性进行成像,例如偏振成像等。
2. 初期视觉
人类的视觉信息处理包括初期视觉和高层视觉,初期视觉主要通过分析输入的视觉信号变化来获取物体的位置、形状、表观和运动等信息,基本不涉及场景信息的语义理解。类似于人类的视觉信息处理过程,计算机视觉也分为初期视觉和高层视觉,其中的初期视觉主要涉及视觉信息预处理和编码,具体包括图像滤波、边缘提取、纹理分析、立体视觉、光流、图像增强与复原等方面的研究内容。是否具有物体识别、行为分析、事件解译等语义理解能力是区分初期视觉和高层视觉的主要依据。
图像滤波是图像预处理的主要手段之一,目的是突出图像中的有效信息、压制不需要的其他信息。根据滤波的操作域不同,图像滤波可以分为空域滤波和频域滤波;根据滤波操作的计算特性不同,图像滤波可以分为线性滤波和非线性滤波;根据滤波的目的不同,图像滤波可以分为平滑滤波、形态学滤波、双边滤波、引导滤波等。高斯滤波是最常用的线性滤波器,Gabor滤波器符合人类视觉初级视皮层的信息处理特性,在图像特征提取中应用较多,双边滤波和引导滤波具有良好的边缘保持特性,并不会影响其他非边缘区域的滤波效果,相对双边滤波而言,引导滤波更加高效,而且可以保持更多类型的图像结构。在图像滤波思想上发展出了局部图像特征,其中,LBP和Haar是两个具有深远影响的局部图像特征,前者利用相邻像素之间的灰度大小关系进行特征编码,具有良好的光照鲁棒性和判别能力,在人脸识别、纹理分析中发挥了重要作用,而后者通过定义一系列矩形区域,通过它们的平均像素差进行判别分析,结合adaboost特征选择算法,是人脸检测领域里程碑式的工作,也广泛应用于其他目标的检测任务中。图像增强和复原技术是基于图像滤波发展而来的,早期的方法集中在滤波器设计上,如维纳滤波、约束最小二乘滤波、Lucy-Richardson解卷积算法等。在2000年之后,以正则化方法和字典学习为代表的稀疏编码方法因其出色的性能表现逐渐成为主流,如针对图像去噪问题的BM3D算法、LSC算法、FOE模型等,以及针对图像去模糊问题的TV正则化算法、L1正则化算法等。目前,也出现了基于深度学习的图像增强和复原方法。边缘提取的早期研究中,主要是根据边缘的物理特性,设计相应的滤波器进行图像滤波,代表性工作是canny边缘算子;在2000年以后,这种根据设计者经验设计的滤波方法逐渐被基于学习的方法所替代,如PB和gPB;近年来,深度学习进一步促进了边缘检测技术的发展,最早的工作有DeepContour和DeepEdge,以及可端到端训练的边缘检测算法HED,目前较好的方法是RCF。在立体视觉和光流这类基于匹配对应的初期视觉问题中,基于马尔科夫随机场将全局约束信息进行建模的方法是深度学习出现之前比较有代表性的一类方法,该方法利用通常利用图割、信念传播、动态规划等算法对构造的极小化问题进行求解。对于立体匹配问题,基于全局优化的方法通常速度较慢,半全局和基于特征的局部方法更加实用,其中,半全局块匹配算法(SGBM)在速度和精度方面具有良好的折中。解决光流问题的基本假设是运动的颜色恒常性,可以为变分法、基于区域的方法、基于特征的方法、频域处理方法,以及最近出现的基于CNN的方法。在深度学习出现之前,变分法在光流的发展中占主导地位,大部分性能优秀的光流算法都属于变分法的范畴,基于颜色恒常性基本假设形式化优化目标函数中的数据项,同时辅于平滑性约束,最终通过求解最优化问题得到光流解。最近兴起的基于CNN的光流计算通过一次网络的前向运算得到输入图像的光流,因此更加高效,计算速度是传统方法的几十倍,具有很大的潜力,比较有代表性的工作是FlowNet系列、SpyNet、TVNet、PWC-Net。
初期视觉的研究产生了广泛的影响,如从图像滤波发展出来的图像卷积是卷积神经网络的核心组件,光流计算是视频行为分析中是最基本的处理方法,基于立体视觉技术发展出来的RGBD相机作为传统图像传感器的重要补充在许多应用中发挥重要作用,图像超分辨率和视频去模糊技术已经在各类摄像类数码产品中广泛使用。
3. 图像增强与复原
图像增强与复原是图像处理领域研究的一类经典问题。在图像的成像、保存和传输过程中,受各种外在因素的影响,图像会产生不同类型的质量退化问题。图像增强和复原主要研究如何基于图像先验和图像退化模型,提升图像的视觉质量或恢复图像的原本面目。图像增强与图像复原又略有区别。前者通常以提升图像的视觉质量为最终目的,常常作为后续图像处理与分析过程的预处理步骤。而后者则以恢复图像本来面目为目标,因此复原过程往往需要考虑图像的退化机理,并构建图像质量退化模型。经典的图像增强与复原问题包括图像去噪、图像去模糊、图像去雾、去雨、去阴影、图像超分辨率以及图像几何畸变校正等。需要指出,由于退化模型的不适定性,图像增强与复原问题通常涉及一类逆问题的求解,是典型的不适定问题。图像的增强与复原不存在统一的处理方法,常需要根据具体问题,针对图像质量退化模型和可利用的图像先验构造恰当的求解方法。
早期的图像增强与复原方法主要包括各种滤波方法。由于噪声与图像内容通常具有不同的频谱,因此可在不同的谱段上分别处理,从而保证在去除噪声的同时尽量不损害图像内容。这类方法主要针对图像去噪和去模糊等问题,代表性的方法包括中值滤波、同态滤波、维纳滤波、约束最小二乘滤波、加权最小二乘法、Lucy-Richardson解卷积算法等。随后,以正则化和字典学习为代表的稀疏编码方法因其出色的性能表现逐渐成为图像复原方法的主流。从贝叶斯观点来看,正则项对应图像的先验分布,因此,图像复原的好坏与选取的图像先验关系密切。与滤波方法相比,稀疏编码提供了一种更为精确、有效的手段来刻画图像先验,往往能够取得非常优异的表现。这一时期针对图像去噪和去模糊问题,涌现出大量的研究工作和性能优异的算法,如针对自然图像去噪的Fields of Experts (FOE)模型、Block-Matching 3D (BM3D)算法、基于K-SVD的图像去噪算法,以及针对图像去模糊问题的TV范数、L1范数以及Lp范数正则化算法等。近年来,随着深度学习热潮的兴起,基于数据驱动的、可端到端学习的图像复原方法逐渐获得研究者青睐。受益于神经网络强大的模型表示能力,研究者尝试用深度神经网络来隐式的刻画图像先验以及图像退化模型。通过将其纳入生成对抗网络框架,从而将图像复原问题转化成一个图像生成问题。该方法的优势在于可将多种类型的图像增强与复原问题纳入一个统一的计算框架来处理。未来,图像复原问题仍将是一个有待继续深入研究的问题。相关领域知识的有效嵌入以及高效便捷计算模型的构建仍将是图像增强与复原研究关注的重点。
由于图像增强与复原研究涉及不适定问题的求解以及高维空间中图像先验的表示与学习等多个问题,该研究也从客观上推动了图像稀疏编码、图像深度编码、图像先验表示与正则化学习等研究的进展。此外,作为图像处理领域中的一个经典研究问题,图像增强与复原也成为新的图像表示理论与算法研究的试金石。作为提升图像视觉质量的一种有效手段,图像增强与复原在底层视觉、计算成像、文字识别、虹膜识别、指纹识别、人脸识别、目标跟踪、视频监控等众多领域获得了广泛的应用。
4. 图像特征提取与匹配
图像特征提取和匹配的目的是对不同图像中相同或相似的基元建立对应关系,基元也称为图像特征,常用的图像特征包括点、直线/曲线、区域,因此根据使用的特征不同,图像特征匹配又分为点匹配、直线/曲线匹配、区域匹配,而从图像中自动提取这些特征的过程也称为图像特征提取。相对来说,点匹配的应用最广,更受研究人员关注。点匹配又可分为稠密点匹配和稀疏点匹配。稠密点匹配的任务是建立图像之间逐像素的对应关系,广泛应用于立体视觉、光流、运动场估计等计算机视觉任务中。特征点匹配包括特征点检测、特征点描述、匹配模型的鲁棒估计三部分内容,旨在建立图像之间的稀疏点对应关系。
对于稠密点匹配,早期工作主要是局部匹配与全局优化相结合的方法,比较有代表性的工作是基于图割的方法和基于信念传播的方法,目前的研究重点则集中在利用深度学习解决该问题。相对于稠密点匹配,特征点匹配应用更广,是主流的特征匹配方法。其中的特征点检测算法用于检测图像上的角点和斑点,以使得不同图像中的相同点能被重复检测,这是进行特征点匹配的基本前提。早期的Harris角点检测算法一直使用至今,并产生了许多改进算法,而FAST角点检测算子则是快速特征点检测的首选算法;斑点检测算法中比较有代表性的工作是SIFT特征点检测算法以及基于积分图技术对它的改进算法SURF。特征点描述的目的是根据特征点周围的图像信息建立一个向量对其进行表达,以建立不同图像间相同特征点的对应关系,分为基于专家知识设计的方法和基于学习的方法。基于分块梯度方向直方图设计的SIFT算法是基于专家知识设计的诸多特征描述方法中的杰出代表,在其基础上改进的著名特征描述方法还有SURF,其在后来的二进制局部特征(如ORB,BRISK等)出现之前的很长一段时间,一直都是作为SIFT在速度要求高的场合的替代算法,同样获得了广泛的应用。随着深度学习的兴起,特征点描述领域在2017年基本完成了从基于专家知识设计的方法到基于深度学习的方法的转变,利用卷积神经网络强大的特征表达能力基于成对的匹配/不匹配图像块自动学习得到区分能力强、鲁棒性好的特征描述子。目前,面向特征描述使用较多的网络结构是L2Net。此外,将特征点检测和特征点描述两个具有内在关联的任务统一起来用深度网络求解是目前流行的方法,代表性工作有LIFT、RF-Net、D2Net、R2D2。鲁棒的模型估计研究从包含错误匹配点的点匹配集合中计算出真实变换模型的方法,广泛使用的方法是RANSAC。此外,如何对特征点匹配结果进行误匹配去除一直都受到研究人员的关注,主要有基于图匹配的方法和基于运动一致性的方法,如GMS、CODE,近年来,也出现了一些利用深度学习进行错误特征点匹配过滤的方法,总体思路是将一对匹配特征点看做一个四维向量,研究深度学习方法以四维向量集合作为输入,挖掘集合中不同点之间的上下文关系,推理得到误匹配特征点。
图像特征提取和匹配产生了广泛的影响,如受SIFT启发出现的HoG特征则在目标检测领域产生了重要影响,是深度学习出现之前目标检测领域的首选特征;局部图像特征点提取和描述直接催生了基于词袋模型的图像表示研究,是前深度学习时代图像分类、识别的主要方法;以图像特征点匹配为基础的全景图像拼接技术已经走进了千家万户,在日常生活中得到广泛使用;此外,特征点匹配还广泛应用于三维重建、视觉定位、摄像机标定等三维计算机视觉任务,在增强现实、基于视觉的定位、城市数字化、自动驾驶等新兴应用中发挥着重要作用。
5. 多视几何理论
多视图几何是计算机视觉研究中几何视觉(Geometric Computer Vision)所使用的基本数学理论,主要研究在射影变换下,不同视角二维图像对应点之间,以及图像点与三维场景、相机模型之间的几何约束理论和计算方法,进而实现通过二维图像恢复和理解场景的三维几何属性。多视图几何建立在严格的代数和几何理论之上,并发展出了一系列解析计算方法和非线性优化算法,是三维重建、视觉SLAM、视觉定位等三维几何视觉问题所使用的基本数学理论。多视图几何研究的代表人物包括澳大利亚国立大学的R. Hartely、英国牛津大学的A. Zisserman、法国国家信息与自动化研究所的O. Faugeras等学者,2000年由R. Hartely和A. Zisserman合著的著作《Multiple View Geometry in Computer Vision》对这方面的研究工作做出了比较系统的总结。可以说,多视图几何的理论研究在2000年左右已基本完善。
多视图几何主要研究两幅图像对应点之间的对极几何约束(Epipolar Geometry),三幅图像对应点之间的三焦张量约束(Tri-focal Tensor),空间平面点到图像点或多幅图像点之间的单应约束(Homography)等。多视图几何的核心算法包括三角化、八点法估计基本矩阵、五点法估计本质矩阵、多视图因式分解法、基于Kruppa方程的相机自标定等解析计算方法,以及以捆绑调整(Bundle Adjustment)为代表的迭代优化方法。多视图几何中最核心的理论是从1990年至2000年左右建立起来的分层重建理论。分层重建的基本思想是在从图像到三维欧氏空间的重建过程中,先从图像空间得到射影空间下的重建(11个未知数),然后将射影空间下的重建提升到仿射空间(3个未知数),最后将仿射空间下的重建提升到欧氏空间(5个未知数)。在分层重建理论中,从图像对应点进行射影重建,就是确定射影空间下每幅图像对应的投影矩阵的过程;从射影重建到仿射重建,在于确定无穷远平面在射影重建下(某个特定射影坐标系)的对应坐标向量;从仿射重建到度量重建,本质上在于确定相机的内参数矩阵,即相机的自标定过程。由于任何一个几何视觉问题最终都可以转化为一个多参数非线性优化问题,而非线性优化的困难在于找到一个合理的初值。待优化的参数越多,一般来说解空间越复杂,寻找合适的初值越困难,所以,如果一个优化问题如能将参数分组分步优化,则一般可以大大简化优化问题的难度。分层重建理论由于每一步重建过程中涉及到的未知变量少,几何意义明确,因此算法的鲁棒性得到了有效提高。
多视图几何和分层重建是计算机视觉发展历程中的一个重要的理论成果,其本身的理论框架已经构建的比较完善。随着相机制作水平的提高,传统小孔成像模型下的相机内参数通常可以简化为只有焦距一个内参数需要标定,且焦距的粗略数值通常可以从图像的EXIF头文件中读出,因此相机的内参数通常可以认为是已知的。此时基于两幅图像之间的本质矩阵约束,通过五点法可以求解两幅图像之间的外参数(旋转和平移向量),进而直接进行三维重建,而不再需要分层进行重建。尽管如此,多视图几何和分层重建由于其理论的优美性和数学的完备性,其在计算机视觉尤其是几何视觉领域仍然是不可或缺的。
6. 摄像机标定与视觉定位
摄像机的参数包括内参数与外参数。内参数包括焦距、纵横比、斜参数、主点等,属于相机的内在属性。外参数是指摄像机的运动参数,包括摄像机运动的旋转矩阵与平移向量。对摄像机内外参数的求解可以统称为摄像机标定。对摄像机机外参数求解,又可以称为摄像机定位或视觉定位。
摄像机内参数标定分为基于先验信息的标定和自标定。首先介绍基于先验信息标定方法:1986年Tsai提出了利用三维标定物的两步法。由于三维标定物的制作要求工艺较高,且容易发生遮挡,1999年,Zhang提出了基于二维棋盘格的标定法,该方法简单易用,在工业界与学术界被大家广泛使用。自标定方法中,最重要的方法是1992年Faugeras提出的基于Kruppa方程的自标定法,通过图像之间的匹配点,计算出图像之间的基本矩阵,则可建立相机内参数的方程。通常基于先验信息的标定是线性问题,而自标定都是非线性的。由于Kruppa方程的原理简单,方程容易建立,如何求解这类非线性问题也曾吸引了很多研究者。当相机参数较少时,Kruppa方程也可转化为线性问题。之后,有比较重要影响的自标定方法是1997年,Triggs提出的基于绝对对偶二次曲面的自标定方法,其中需要射影重建,比Kruppa方程的自标定要复杂一些,但是可以避免一些退化的出现。基于绝对对偶二次曲面的自标定方法的重要性还体现在当相机自标定后,可以在射影重建的基础上自然过渡到度量重建上。
摄像机定位可以分为两大类,环境信息已知的方法和环境信息未知的方法。环境信息已知主要是PnP问题的研究,环境信息未知主要是SLAM (Simultaneous Localization and Mapping)的研究。PnP的研究最早起源于1841年。1841年及1903年Grunert Finsterwalder及Scheufele 研究得到P3P问题最多有4个解,P4P问题有唯一解。之后,开启了PnP问题的系列研究。1999年Quan和Lan给出P4P、P5P的近似线性方法。当n大于等于6,PnP问题是线性的,最早的有影响力的该问题求解方法当属Abdel-Aziz和H. M. Karara于1971年提出的直接线性变换法,目前使用最多的有效的处理方法是Lepetit等于2008年给出的EPnP方法。SLAM最早由Smith和Cheeseman于1986年提出,并于1995年在机器人研究研讨会上被正式命名。SLAM技术具有重要的理论意义与应用价值,被许多学者认为是移动机器人实现真正自主的关键,甚至称其为自主移动机器人界的圣杯。在2002年,Andrew Davison 首次实现了单目实时的SLAM系统MonoSLAM,其中采用了滤波的方法。从此机器人采用单目相机进行实时定位成为可能,也为单目相机下进行增强现实打下了重要的基础。随着计算机硬件的发展以及多视几何理论的逐渐成熟,2007年,Klein和Murray提出了PTAM(Parallel Tracking and Mapping),拚弃之前滤波方法的主流框架,提出并实现了基于多视几何理论的跟踪与建图过程的并行化。之后广泛流行的Mur-Artal and Tardós 提出的ORB SLAM,正是在PTAM的框架基础上修改而成。不考虑特征点,而是考虑图像的梯度信息,直接基于图像的光度一致性,2014年Engel等人提出了直接法的SLAM,不需要提取特征点、不需要计算描述子,达到了一个较高的跟踪速度。最近几年,也出现一系列的深度学习的视觉定位方法,代表性的工作有Tateno等于2017年提出的CNN-SLAM,Bloesch等于2018年提出的CodeSLAM,Xue等2019年提出的引入记忆模块的VO方法。与传统方法相比,基于深度学习的方法具有较高的鲁棒性能。
摄像机内参数标定是计算机视觉的基础,很多应用都是以标定内参数作为前提。摄像机定位是机器人、无人驾驶、增强现实、虚拟现实中的关键技术,具有广泛的应用价值,不仅可以应用于工业领域,也可以在消费级领域中具有广阔市场,吸引了大量的研究与关注。
*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。