权威发布|计算机视觉重要研究进展(二)
前文见传送门:计算机视觉重要研究进展(一)
7. 三维重建
三维重建旨在通过多视角二维图像恢复场景三维结构,可以看作相机成像的逆过程。最早的三维重建理论在1982年由D. Marr在其视觉计算理论中提出,Marr认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题,同时Marr还提出了从初始略图到物体2.5维描述,再到物体三维描述的完整计算理论和方法。Marr认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,这一视觉计算理论是最早的三维重建理论。从1990年至2000年左右,以射影几何为基础的分层重建理论的提出,使三维重建算法的鲁棒性得到了有效提高。分层重建理论构建了从射影空间到仿射空间,再到欧氏空间的计算方法,具有明确的几何意义和较少的未知变量,是现代三维重建算法的基础理论。近年来,随着大规模三维重建应用需求的不断提升,三维重建的研究开始面向大规模场景和海量图像数据,主要解决大场景重建过程中的鲁棒性和计算效率问题。
通过多视角二维图像恢复场景三维结构主要包括稀疏重建和稠密重建两个串行的步骤。稀疏重建根据输入的图像间特征点匹配序列,计算场景的三维稀疏点云,并同步估计相机内参数(焦距、主点、畸变参数等)和外参数(相机位置、朝向)。稀疏重建算法主要包括增量式重建和全局式重建两类:增量式稀疏重建从两视图重建开始,不断添加新的相机并进行整体优化,渐进式的重建出整个场景和标定所有相机;全局式稀疏重建首先整体估计所有相机的空间朝向,之后整体计算所有相机的位置,最后通过三角化计算空间稀疏点云。在稀疏重建中,最后一步都需要使用捆绑调整算法(Bundle Adjustment)对所有相机参数和三维点云位置进行整体优化。捆绑调整以所有三维点重投影误差平方和最小化为优化目标,是一个高维非线性优化问题,也是决定稀疏重建结果质量的核心步骤。在稀疏重建完成后,稠密重建根据稀疏重建计算的相机位姿,逐像素点计算密集空间点云。稠密重建的主要方法包括基于空间体素的方法、基于稀疏点空间扩散的方法、基于深度图融合的方法等。基于体素的方法首先将三维空间划分为规则三维格网(Voxel),将稠密重建问题转化为将每一个体素标记为内和外的标记问题,并通过图割算法进行全局求解,得到的内外体素交界面即为场景或物体的表面区域。基于特征点扩散的方法以稀疏点云为初始值,采用迭代的方式,通过最小化图像一致性函数优化相邻三维点的参数(位置、法向等),实现点云的空间扩散。基于深度图融合的方法首先通过两视图或多视图立体视觉计算每幅图像对应的深度图,然后将不同视角的深度图进行交叉过滤和融合得到稠密点云。近年来,深度学习方法也开始逐步应用于深度图计算中,其基本思想是首先利用共享权重的卷积神经网络来提取图像的特征,然后利用平行平面假设,将从邻域图像中提取出的特征通过单应性矩阵转换到当前图像不同深度的前平面,随后通过计算不同深度之间的方差将不同深度的特征融合在一起,再通过三维卷积进行深度求精,最后得出当前图像的深度图。
除了通过多视角二维图像计算场景三维结构外,计算机视觉领域还发展了一系列通过图像明暗、光度、纹理、焦点等信息恢复场景三维结构的方法,一般统称为Shape-from-X。从明暗恢复形状(Shape from Shading)的方法通过建立物体表面形状与光源、图像之间的反射图方程,并在场景表面平滑性约束的假设下,通过单幅图像的灰度明暗来计算三维形状。从光度立体恢复形状(shape From Photometric Stereo)的方法同样基于反射图方程,但使用多个可控光源依次改变图像明暗,从而构造多个约束方程,可以使三维形状的计算更加精准可靠。从纹理恢复形状(Shape From Texture)的方法利用图像中规则且重复的纹理基元在射影变换下产生的尺寸、形状、梯度等变化情况来推断场景结构,但该方法受限于场景纹理先验,在实际应用中使用较少。从焦点恢复形状(Shape from Focus)的方法利用透镜成像中物体离开聚焦平面引起的图像模糊(散焦)现象,利用聚焦平面或物体的运动,以及图像中的检测到的清晰成像点,来推断每个像素点到相机光心的距离。
三维重建理论和方法是伴随着诸多应用领域的需求而不断发展的,如机器人环境地图构建和导航、城市级航拍三维建模、文化遗产三维数字化保护等等。尤其对于大规模复杂场景的三维建模,由于图像传感器低成本和采集方便的特性,往往成为这类应用的首选。比如在地理信息领域,基于航拍倾斜摄影的三维建模已经在很多场合替代了传统的航空激光雷达建模。近年来,随着图像三维重建算法鲁棒性和计算效率的进一步提高,其在室内建模与导航、无人驾驶高精地图构建等领域的应用也在不断拓展。
8. 目标检测与识别
目标检测与识别长期以来一直是计算机视觉与模式识别领域的重要研究任务之一,为解决更复杂任务例如目标分割、行为分析、事件理解、视觉语言交互等奠定了基础。具体而言,目标识别需要对于图像视频中出现的人或目标预测出其相应的类别,而目标检测则需要在识别出目标类别的基础上进一步预测目标在图像中的位置。
传统目标识别方法通常采用两阶段的方式。1)特征提取与编码:从图像视频中提取具有判别性的局部特征,该局部特征通常是基于人类先验设计的特征描述子,代表性方法有SIFT、Gabor、LBP和SURF。此外还有一类基于物体几何形状分析的方法,能够对包括旋转、缩放等比较大的运动变化以及目标形状特征失真或缺损情况都比较鲁棒,代表性方法有GHT、CTT和形状上下文方法等。在局部特征的基础上通常会进行特征编码,进一步强化特征的表示能力,代表性方法有BOW和稀疏编码方法等。2) 训练分类器:学习从视觉特征到类别的映射,代表性方法有SVM。或者也可以采用度量学习和模板比对的策略来找到与查询样本接近的样本的类别。这两个阶段的模型是相互独立学习的,在第一阶段通常不会用到类别等监督信息。自2012年以来,以CNN为代表的深度学习模型采取端到端的联合特征学习和分类器学习,即由数据驱动学习适用于分类的判别特征表示。最具有代表性的一系列深度学习模型包括AlexNet、VGGNet、GoogleNet、ResNet、DenseNet、SENet等,取得远超传统方法的性能。基于深度学习的算法在2012-2017年间不断刷新目标识别任务的最好结果,并且最终在百万级图像数据库ImageNet上取得了超过人类的识别性能。自此,通用目标的识别问题基本上已经被解决,相关技术也广泛用于实际场景例如人脸识别、植物识别、动物识别等。目前研究者们更多关注如何基于小型学习网络进行高效率目标识别,代表的模型包括MobileNet、ShuffleNet、IGCNet等。
早期的目标检测算法大多针对某个具体的目标类别,如人脸检测、行人检测。其中,针对人脸检测问题提出的Adaboost算法在其他特定类别的目标检测问题中也得到了较为广泛的应用。在Adaboost之后,一直到2014年基于深度学习的R-CNN方法出现,基于可变形部件模型DPM成为最具有代表性的多目标检测方法。但是传统目标检测算法缺陷却是明显的:1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高且冗余度高;2)手工设计的特征对于目标多样性变化不够鲁棒。2014年之后,目标检测全面进入深度学习时代,基于深度学习的目标检测算法对于之前基于手工特征结合DPM的方法产生了质的飞跃,目前可分为基于目标候选框提取的两阶段目标检测算法和基于回归的单阶段目标检测算法。著名的Fast R-CNN、Faster R-CNN、FPN、Mask R-CNN、Cascade R-CNN系列方法都属于前者,相对于单阶段目标检测算法他们的精度更高,但是运行速度却慢。单阶段目标检测算法是2016年兴起的方法,比较具有代表性的工作有SSD、YOLO、以及RetinaNet系列算法。此外,如何将这两类目标检测算法进行有机结合在近些年也开始受到关注,相关技术被广泛用于生物医学图像分析、交通安全等领域。
9. 图像分割
与目标检测和识别任务不同,图像分割是更具有挑战性且最近发展非常快的一个任务。图像分割的目的是将图像视频分成各具特性的区域并提取出感兴趣目标,他可以看作是目标检测任务的进一步延展,即不仅需要识别出图像视频中出现的目标,还需要定位目标位置并将其轮廓分割出来。图像分割发展至今包括四种主要任务类型:1)普通分割,即将分属不同目标的像素区域分开,不区分类别,例如前景狗的区域与背景区域草地的区域分割开;2)语义分割(Semantic Segmentation),即在普通分割的基础上判断每块区域的类别,包括可数的things(如狗)和不可数的stuff(如草地);3)实例分割(Instance Segmentation),即在语义分割的基础上给每个可数的things(目标)编号,例如一个目标是汽车A,另一个目标是汽车B;4)全景分割(Panoptic Segmentation),语义分割和实例分割的结合,既分割可数things和不可数stuff的不同语义,同时也给每个可数的things编号。
传统的很多图像分割算法通常基于像素点的值、颜色、纹理等信息来度量不同像素之间的相似性进而判断各个像素的类别都是无监督的,例如阈值分割法、区域生长法、边缘检测法、特征聚类法、直方图法、区域生长法等。分水岭算法是一种代表性的分割方法,该方法将图像的灰度值的高低视为“山峰”与“山谷”,通过对不同“山谷”区域不断注入不同标签的“水”,并且在相邻“山谷”之间的“水”汇合之处增加“分水岭”以实现区域分割。尽管这些算法的速度都比较快,但是对于比较复杂的视觉内容容易产生分割区域不完整、漏分割等问题。为了缓解这些问题,Normalized Cut把图像所有像素建模为一个图,并通过最大流/最小割算法来获得两个不相交的子集,分别对应于图像的前景像素集和背景像素集,即相当于完成了图像分割。另外一类常用方法是主动轮廓(Active Contour)算法,他通过设计能量泛函使得自变量包括用连续曲线表达的目标边缘,从而使分割过程转化为能量泛函最小化问题。该方法包括参数主动轮廓和几何主动轮廓两种实现途径,代表方法分别有Snake和Level Set。此外,在深度学习兴起之前还有很多基于概率图模型的图像分割方法,代表性的有MRF、CRF、Auto-Context等。
在2012年深度学习兴起之后,多种CNN的扩展模型也被应用到了图像分割领域。语义分割具有里程碑意义的模型是全卷积网络FCN, 他通过将全连接操作全部替换为卷积操作来高效地进行逐像素类别预测,从而避免了CNN中的将二维特征图压缩成一维向量所带来的空间信息丢失。为了同时保证准确率和输出图像分辨率,U-Net、DeconvNet、SegNet、HRNet等模型应用跨层关联模式逐渐融合低层信息来恢复输出预测,而Deeplab、PSPNet等模型引入空洞卷积的操作使得输出预测保持较大的分辨率。随着图像分割的精度大幅提升,分割的效率也逐渐吸引了很多注意力,其中,ICNet、BiSeNet等方法通过设计多分支网络结构大幅提升了模型的推理效率。
实例分割既需要分割出物体的语义,同时定位出不同的实例,其中具有里程碑意义的模型是Mask-RCNN,他在目标检测算法Faster-RCNN的基础上增加了用于分割目标的分支,从而在每个检测框内进行语义分割。但是,目标检测算法中的ROI操作限制了输出分割图像的精度。所以,随着目标检测和语义分割方法的发展,FOCS、SOLO、CondINS等方法提出抛开ROI直接输出更高精度的分割图。全景分割结合了语义分割和实例分割的特点,既需要分割不可数的stuff,又需要分割数可数things的不同实例。该任务2018年刚被提出,虽然较新,但是已经吸引了越来越多的研究人员投身其中。PanopticFPN、UPSNet、OANet、Panoptic-Deeplab等模型主要依赖于语义分割算法分割stuff,实例分割算法分割thing,再融合两者的输出得到最终的全景分割图。
尽管目前学术界还在深入研究精细化图像分割的算法,但是相关技术已经在行人分割、病灶分割等诸多领域得到实际应用。此外,图像分割技术也广泛作为其他复杂视觉内容理解任务例如步态识别、行人再识别等的前处理操作,他的分割鲁棒性直接决定了后续任务的最终性能。因此,研究复杂背景、遮挡、模糊等复杂情况下的鲁棒图像分割是亟待解决的问题。
10. 图像场景理解
图像场景理解是比较宽泛的概念,所涉及的关键技术主要包括场景解析、语义描述等,近年来都得到了快速发展。
场景解析:场景解析是给予图像中每一个像素相应的目标类别标签,亦称为图像语义分割。不同于粗放的图像识别,场景解析是高层级,精细化的图像分析和识别任务,通过像素级的目标类别标签,可轻易获得图像中目标的位置、轮廓和类别。场景解析技术难点是如何将高层次的目标语义与低层次的轮廓融合起来,进而得到高分辨率、精细的解析结果。高层次的目标语义需要深层次特征和较大感受野实现宏观概念的抽取,但同时低层次的轮廓则需要浅层高分辨特征和较为有限感受野以保证锐利的边缘。当前主流的场景解析技术主要基于全卷积神经网络(FCN),大致分为两类:1) 编码解码模型(Encoder-Decoder Model)。U-Net、DeconvNet、GCN、RefineNet、DFN等模型通过在低分辨率高层语义特征的基础上逐步引入浅层高分辨率特征来恢复高分辨率精细的解析结果。2) 扩张卷积模型(Dilated Convolution Model)。DeepLab、PSPNet、PSANet等场景解析技术通过空洞卷积或者扩张卷积(Dilation Convolution)来保证输出高分辨率的高层语义特征。场景解析能够给出精细化的图像分析和识别结果,在自动驾驶、自主机器人、监控视频等精细化定位和操作领域,需求尤为突出。
语义描述:虽然当前大部分视觉研究仍关注在检测、分割、识别等经典的视觉任务上,但人们发现人类的视觉系统在处理信息时,往往是与听觉和语言系统协同工作的,这样才能将视觉感受到的信息加工、抽象成为高层级的语义信息。语义描述是计算机视觉技术前沿研究领域,具体研究问题是根据给定图像,给出一段描述性文字,力图符合人类给出的描述标签。当前图像语义描述起源于著名华人科学家李飞飞博士策划的视觉基因组(visual genome)计划,目标是把图像和语义结合起来。当前的图像语义描述技术是联合卷积神经网络(CNN)和递归神经网络(RNN)的一种新型网络。语义描述被认为是当前感知智能向认知智能发展的开端,不仅是跨模态模式识别的典型问题,同时具有广阔的应用前景。语义描述改变了计算机视觉与自然语言处理、语音识别等学科相对独立的状态,提供了一种新的图像场景理解的研究范式。当前图像描述的技术难点主要集中在两个方面:语法的正确性,映射的过程当中需要遵循自然语言的语法,使得结果具有可读性;描述的丰富程度,生成的描述需要能够准确描述对应图片的细节,产生足够复杂的描述。为求解上述问题,学者们引入了注意机制(Attention)、对抗生成网络(GAN)等技术,试图生成更加贴近人类自然语言的图像语义描述。
11. 图像检索
图像检索(Image Retrieval)是为了在输入查询图像时在包含丰富视觉信息的海量图像库中方便、快速、准确地查询并筛选出用户所需的或感兴趣的一些相关图像。检索的主要步骤依次为用户输入查询(Query)、查询分析、索引&词库、内容筛选、结果召回和结果排序及展示。查询经常常包含文字、颜色图、图像实例、视频样本、概念图、形状图、素描、语音、二维码以及多种形式的组合。为了更好地给出用户需要的图像,检索系统会使用相关性反馈和交互式反馈,充分利用用户提供的反馈信息(如浏览记录、点击记录、再次搜索等),从而更好地理解用户的表达搜索意图以得到更好的搜索结果。图像检索方法按照描述图像内容方式分为:基于文本的图像检索和基于内容的相似图像检索。此等人的研究内容包括图像自动标注、图像特征提取与表示、特征编码与聚合、大规模搜索。
图像自动标注是指针对图像的视觉内容,通过机器学习方法自动给图像添加反映其内容的文本特征信息(如颜色、形状、区域属性标注、概念类别等)的过程。经过图像自动标注,图像检索问题可以转化为技术已经相对较成熟的文本信息处理问题。图像自动标注依据标注模型的不同主要包括基于统计分类的自动图像标注、基于概率的图像自动标注和基于深度学习的图像自动标注等。基于统计分类的方法将每个图像的语义概念作为一类进行分类,自动图像标注转化为多分类问题。基于概率建模的方法尝试推断图像和语义概念之间的相关性或联合概率分布。深度学习方法适合对图像高层语义特征进行自动学习并对海量图像进行分类标注。
图像特征提取和表达是基于内容的图像检索的初始阶段。模识分类和视觉目标识别中常用的特征提取和表达方法(如SIFT、SURF、Bag-of-Words、CNN等)也可用于图像检索。由于浮点特征计算图像相似度/距离复杂度高、存储空间大,而二进制特征存储高效,汉明距离计算复杂度低,基于二进制特征和哈希方法受到了广泛关注。哈希是在保留图像或视频的相似性条件下将高维数据编码为二值化表达。传统方法需要将浮点特征编码成二进制特征,例如谱哈希等;深度学习方法则是直接学习和输出二进制特征表达,如基于汉明嵌入的紧致特征表达、二进制哈希编码、深度监督哈希、深度离散哈希等。为了降低原始特征维度灾难带来的影响,特征编码和聚合是基于内容的图像检索的第二阶段,主要是基于特征提取阶段得到的图像特征进行聚类并生成编码本,有利于构建倒排索引,可以分为小规模编码本,大规模编码本。根据编码方法不同,小规模编码本包含基于稀疏编码的特征聚合(Bag of Words, BoW)、局部聚合向量(Vector of Locally Aggregated Descriptors, VLAD)、Fisher向量编码。大规模编码本包括层级K均值和近似K均值。在进入深度学习时代后,前期的工作采用卷积神经网络与传统编码聚合方法相结合的思路,如CNN+VLAD、CNN+BoW、Fisher编码+CNN等。后期研究人员则提出了各种面向图像检索任务的端到端训练深度卷积神经网络,这时候就不再需要显式编码或聚合步骤。代表性工作包括基于孪生网络和对比损失的视觉相似性学习、受VLAD启发的NetVLAD等。二进制编码也是特征编码的重要部分,主要进展包括数据独立哈希和数据依赖哈希。数据独立哈希代表性工作有随机预测哈希、局部敏感哈希、加权最小独立置换局部敏感哈希等。数据依赖的哈希算法需要使用训练数据学习哈希函数,对数据敏感,一般分为无监督、半监督和有监督哈希。由于深度学习强大的特征学习能力和端到端的学习哈希函数能力,一批相关哈希算法越来越受到重视,代表性工作包括卷积神经网络哈希、深度正则相似比较哈希、深度监督哈希、跨模态深度哈希、基于排序的语义哈希等。深度无监督哈希方法不需要任何标签信息,而是通过特征的距离获得相似性信息,主要分为三类:相似性移除的深度哈希、基于生成模型的深度哈希和基于伪标签的深度哈希。近年来多模态深度哈希技术吸引了大量研究兴趣,代表性工作包括多种跨模态哈希和跨模态深度哈希、自监督对抗哈希、深度多层次语义哈希等。
对于大规模图像搜索的快速查找技术包括查找优化(如建立倒排索引,通过优化检索结构进行性能优化,不改变向量本身)和向量优化(通过将高维浮点向量映射为低维向量或映射到汉明空间,减少计算复杂度和存储空间)。查找优化方法分为最近邻查找和近似最近邻查找。最近邻查找代表性工作是KD树、基于查询驱动迭代最近邻图搜索的大规模索引法等。近似最近邻通过减少搜索空间,大幅度提高效率,找到近似最近距离的匹配目标,常用的方法有局部敏感哈希、倒排文件索引、倒排多索引、面向深度特征的非正交倒排多索引等。向量优化方法是将特征向量进行重映射,将高维浮点向量映射到其他空间,映射后的向量可以使用更高效的方式进行距离计算。哈希算法是其中最有代表性的技术。
此外,图像检索在相关性的定义方面有许多外延,包括语义相关、纹理相关、表观相关等。为了更好地获得图像检索结果,排序算法和重排序算法经常被应用于图像检索系统中。为了更好地与用户进行交互或者广告推荐商业化,检索结果的合理展示也是各大互联网公司非常重视的一块。总的来说,图像检索推动了计算机视觉、模式识别、机器学习等领域的发展。其技术得到了广泛的应用,包括百度、谷歌、微软的搜索引擎,阿里、京东、拼多多等的电子商务中的商品垂直搜索,IBM的医疗辅助等。
12. 视觉跟踪
从最一般的意义上讲,视觉跟踪就是要在整个图像序列中的每帧图像里,通过算法确定指定目标的状态。在第一帧中的待跟踪物体的状态由人或者其它算法确定。目标状态通常包括其中心在图像中的位置、恰好包围住物体的矩形框和该矩形框的旋转角度等。对于在被跟踪过程中形变剧烈的物体,有时会用多个矩形框来共同近似表示其位置和姿态等状态,也可以利用多边形或者图像分割算法将物体包围框中的像素分为目标像素和背景像素,以提高被跟踪物体的标示精度。跟踪算法种类繁多。可以按照算法是在线还是离线跟踪物体来划分。所谓在线跟踪,就是指算法只能利用在当前及其之前时刻的图像来定位物体,而离线跟踪则是指算法可以利用整个视频来确定其中任意一帧中物体的状态。显然,在线跟踪相对难度更大,当然应用也更为广泛。跟踪算法也可以根据是否事先知道被跟踪物体或其种类来划分。如果跟踪算法只能利用物体在初始帧中的信息,则通常被称为无模型(model free)跟踪问题,如果能事先知道被跟踪物体或者其种类,就可以首先搜集大量的相关样本,然后设计并训练跟踪器,以便在跟踪物体时减少误判,从而显著提高跟踪性能。跟踪算法还可以按照需要在一帧图像中跟踪单个目标还是多个目标来划分。单目标跟踪算法一般由表观模型、运动模型和搜索策略构成,而多目标跟踪算法通常由在同一帧中的多物体定位和在相邻帧间的相同物体关联两部分组成。从实际应用考虑,跟踪算法还可以进一步按照背景或摄像机是否静止、是否进行三维跟踪以及是否需要跨摄像机跟踪等来进一步细分。跨摄像机跟踪往往针对特定类目标,更多地涉及到高效目标检测、重识别或者多对多匹配问题。
对于最基础的单目标视觉跟踪,从所采取的技术手段上讲,跟踪算法经历了由最初的基于生成式物体模型的仿射对应和卡尔曼滤波与粒子滤波方法,到二十世纪末至二十一世纪初在物体建模中引入判别性方法,再到二十一世纪第二个十年中的基于相关滤波的方法以及基于深度网络的跟踪算法。在大数据支持下,相关滤波方法与深度特征的结合,以及在深度网络跟踪器中引入相关滤波,在极大地提升跟踪算法定位性能的同时,也使算法具有较高的处理帧频。随着相关滤波跟踪算法研究的不断深入,相关滤波理论本身也取得了一系列突破。相关滤波的高速性能也不再仅仅依赖于快速傅里叶变换。基于回归网络的跟踪算法在近几年中备受关注。这种算法直接对物体搜索区域或粗糙的物体状态进行回归,得到精细的物体状态。基于元学习的跟踪算法当前取得了最好的精度和速度的平衡。这种算法通过元学习的方式训练深度网络,使跟踪器模板可以快速适应物体模板和周围背景,因此有较强的的判别力和鲁棒性。
视觉跟踪是计算机视觉中的一个非常困难而又应用广泛的基础性问题。当前的跟踪算法,往往大量借鉴计算机视觉中其它领域,特别是目标检测领域中的技术,并使之适应于视觉跟踪的特定问题。
13. 行为与事件分析
行为与事件分析是高层计算机视觉的重要任务。行为分析是利用计算机视觉信息(图像或视频)来分析行为主体在干什么,相对于目标检测和分类来说,人的行为分析涉及到对人类视觉系统的更深层的理解。事件是指在特定条件或外界刺激下引发的行为,是更为复杂的行为分析,包括对目标、场景及行为前后关联的分析。事件分析是行为分析的高级阶段,能够通过对目标较长时间的分析给出语义描述。之前的行为识别可以是事件分析的基础,但事件分析也具有其特殊性,仅仅依赖于前述的行为识别并不能较好地解决事件分析。行为与事件分析的核心任务是对其分类,但不局限于分类,还涉及在空间、时间对其定位及预测。根据行为/事件中涉及的人的个数可将其分为个体行为/事件和群体行为/事件。
行为分析主要开始于二十世纪七十年代,该任务的一般流程包括两个步骤:一是特征提取去除视频中的冗余信息,二是利用分类、比对等学习方法进行识别分析。早期的研究主要局限于简单、固定视角且已切分好后的动作,基于全局特征表示的方法是早期行为识别方法中最具代表性的方法,典型方法是首先利用背景差分获得人体轮廓,然后累加这些差分轮廓生成运动能量图(MEI)或者运动历史图(MHI),利用模板匹配法对该视频中的行为进行分类;或者提取每帧中的轮廓信息,采用线性动态变换、隐马尔可夫模型等进行时序建模,利用状态空间法进行识别。然而,基于全局特征表示的方法依赖于背景分割并且对噪声、角度、遮挡等都很敏感,无法很好的分析复杂背景下的复杂行为和事件。本世纪初,大量基于局部特征表示的方法出现,克服了全局特征方法存在的一些问题,对视角变化、光照变化、人的表观变化和部分遮挡具有一定的不变性,取得了更好的效果。这类方法的流程是局部区域提取、局部特征提取、局部特征编码与池化、分类器学习。局部区块通常采用密集采样或者在时空兴趣点周围采样得到,其中时空兴趣点是视频中运动发生显著变化的时空位置,并假设这些时空位置对人体行为识别非常关键。局部特征描述子表示的是图像或者视频局部区块的特征,典型的有梯度直方图、光流直方图、尺度不变描述变换(SIFT)、SURF特征、运动边界直方图MBH、轨迹特征tracklet等。局部特征需要再经过编码和池化才能得到整个视频的特征描述,最常见的特征编码方式有视觉词包模型、矢量化(VQ)、稀疏编码、费舍尔向量、以及局部条件约束线性编码(LLC)、以及局部聚合描述向量VLAD等。而此时最常用的分类方法是SVM结合多核学习、度量学习等方法。近十年以来基于深度学习的方法在各种各样的视觉任务中取得了突破,也被广泛应用于行为分析任务中。基于卷积神经网络的行为识别方法采用卷积网络分别从视频的RGB和光流两个通道(two streams)描述视频序列,最后使用两个通道的加权平均结果作为对整个视频的预测结果。基于三维卷积神经网络的方法将2D卷积神经网络直接扩展到3D卷积神经网络,将整个视频作为整体输入到3D深度卷积神经网络中,实现端到端的训练。基于递归神经网络的方法对视频每帧上提取的深度特征在时间序列上建模,例如先用卷积网络提取底层视觉特征,然后使用LSTM对底层视觉特征进行高层级建模。很多方法通过增加空间、时间或通道注意力模块,使网络关注到更有判别性的区域。也有方法利用图卷积神经网络建模高层特征及特征的关系,来提高模型的表达能力,然而由于人体骨架数据的结构显著性,图卷积神经网络在基于骨骼数据的行为识别中使用更为广泛。最后,这些基于神经网络的方法,往往会融合基于密集运动轨迹方法进一步提升最后的性能。
对于群体行为分析,除了上述方法即整体性方法外,另一些学者提出了基于个体分割的群体行为分析框架,大致是将多人交互的行为过程分解为多个人单独的动作过程,再采用一些高层的特征描述和交互识别的方法得到最终的交互结果。行为的发生时间一般都很短,目前的视频行为分析方法大都适用于不同的拍摄视角和场景,对视角、场景变化具有一定的不变性。然而事件却往往持续时间长,存在跨摄像机事件分析的需要,如多摄像头下的大场景监控环境。大范围场景多摄像机下的复杂事件通常涉及多个相互联系的行为单元,不同的行为单元的时空依存关系,目前直接进行关联行为分析的研究比较少,而跨摄像机网络中基于特定行人进行检索的行人重识别、行人追踪、不同姿态/环境下人像身份的识别等技术是跨摄像机领域当下的研究热点,通过这些技术将跨摄像头下的行为单元进行关联,从而可进一步进行事件分析。
行为与事件分析是极具挑战性的任务,不仅包含对视频中静态目标的感知也包括对动态变化的分析。目前,从基于时空兴趣点局部特征描述的方法等到基于神经网络的方法,行为与事件分析的性能得到了显著提高。对于复杂现实场景的大样本下,已能够达到较高水平。这给行为与事件分析带来了更广阔的应用空间,包括智能视频监控、机器人视觉系统、人机交互、医疗护理、虚拟现实、运动分析及游戏控制等。比如篮球/足球等体育视频中的运动行为检测,老人病患者等监控视频中行为识别和预测,公共安全场景下暴力事件、群体行为分析与预警等。
*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。