欢迎光临散文网 会员登陆 & 注册

权威发布|模式识别应用技术重要研究进展(一)

2020-10-22 14:46 作者:深蓝学院  | 我要投稿

引言

模式识别是人工智能领域的一个重要分支。人工智能通过计算使机器模拟人的智能行为,主要包括感知、推理、决策、动作、学习,而模式识别主要研究的就是感知行为。在人的五大感知行为(视觉、听觉、嗅觉、味觉、触觉)中,视觉、听觉和触觉是人工智能领域研究较多的方向。模式识别应用技术主要涉及的就是视觉和听觉,而触觉则主要与机器人结合。随着计算机和人工智能技术的发展,模式识别取得了许多引人瞩目的应用成就和不可忽视的科学进展,它使得计算机智能化水平大为提高、更加易于开发和普及,在社会经济发展和国家公共安全等领域中应用日益广泛。生物特征识别、多媒体信息分析、视听觉感知、智能医疗都是目前发展较快的模式识别应用领域。

模式识别最主要的应用技术是生物特征识别。生物特征识别是指通过计算机对人体的生理特征(面部、手部、声纹)或行为特征(步态、笔迹)等固有模式进行自动识别和分析,进而实现身份鉴定的技术。它是智能时代最受关注的安全认证技术,凭借人体特征的唯一性来标识身份,已经逐渐替代人们常使用的钥匙、磁卡和密码,在智能家居、智能机器人、互联网金融、军事装置等领域发挥重要作用。

多媒体信息分析是模式识别最广泛的应用方面之一。旨在解决多媒体数据的挖掘、理解、管理、操纵等问题,同时以高效的方式对不同模态的异构数据进行智能感知,以便服务于实际应用。作为新一代信息资源,多媒体数据除传统的文字信息外,还包含了表现力强、形象生动的图像和视频等媒体信息。相对于真实的多媒体数据,使用模式识别方法也可以合成的高质量和多样化的虚拟数据,合成及鉴伪虚假信息在经济、政治、安防等领域都具有重要应用价值。

医疗诊断和医学图像处理是模式识别的一个较新的应用领域。主要是将模式识别技术应用在医学影像的处理和理解方面,并结合临床数据加以综合分析,找到与特定疾病相关的影像学生物指标,从而辅助医生早期诊断,治疗和预后评估。主要涉及医学图像分割、图像配准、图像融合、计算机辅助诊断、三维重建与可视化等。

模式识别应用技术具体研究进展主要表现在如下几个方面:面部生物特征识别、手部生物特征识别、行为生物特征识别、声纹生物特征识别、文字与文本识别、复杂文档版面分析、多媒体数据分析、多模态情感计算、图像和视频合成、图像取证与安全、遥感图像分析、医学图像分析等。接下来着重介绍,本次分享其中六项。

干货太多,请自带水杯~^-^

以下为报告正文部分

1. 面部生物特征识别

人体多种模态的生物特征信息主要分布于面部(人脸、虹膜、眼周、眼纹)和手部(指纹、掌纹、手形、静脉)。相比手部生物特征,人体面部的人脸和虹膜等特征具有表观可见、信息丰富、采集非接触的独特优势,在移动终端、中远距离身份识别和智能视频监控应用场景具有不可替代的重要作用,因而得到了国际学术界、产业界乃至政府部门的高度关注。

人脸识别是计算机视觉的经典问题,主要研究聚焦在人脸检测、人脸对齐和人脸特征分析与比对、人脸活体检测、人脸表情识别等。人脸检测早期经典算法是Viola和Jones提出的Haar特征和Adaboost机器学习方法,近些年来RCNN、Fast RCNN、Faster RCNN、SSD、YOLO等深度神经网络的目标检测方法在人脸领域取得更好的检测精度。如何检测小人脸和部分脸是现在人脸检测的重点关注方向,例如中科院自动化所提出了RefineFace实现高精度、高效率的人脸检测。人脸对齐需要在图像中定位出人脸的眼角、鼻尖、嘴角等关键点,代表性的方法包括Active Shape Models、Constrained Local Models、Active Appearance Models、Explicit Shape Regression以及基于深度神经网络的回归方法等。中科院自动化所针对严重遮挡下人脸图像的关键点定位,提出一种基于数据及模型混合驱动的人脸关键点定位方法,目的在于充分利用数据驱动下深度网络的表达能力和模型驱动下点分布模型的推理能力。三维人脸关键点定位成为近期热点,中科院自动化所提出了基于语义体素表达和对抗先验学习的三维人脸形状估计方法。从特征表达的角度看,人脸识别的发展初期主要是基于面部关键位置形状和几何关系或者模板匹配的方式。90年代人脸识别发展迎来了第一个高潮期,最具代表性的是基于人脸的统计学习方法,衍生出来的几个经典算法有子空间学习算法和LBP等局部特征算法。2008年研究人员采用稀疏表达方法提升了人脸识别鲁棒性。基于深度神经网络的人脸识别方法已成为研究热点,代表性工作包括DeepFace、DeepID、FaceNet、VGGFace、SphereFace、ArcFace等,深度学习人脸识别算法在LFW数据库上达到了超越人眼的水平。为了提高深度学习计算效率,中科院自动化所借鉴视觉认知机理、引入Ordinal Measures到深度神经网络,提出了轻量级的Light CNN人脸特征模型。中科院自动化所基于生成对抗网络提出了一系列人脸图像合成方法,显著提升了人脸识别对姿态、分辨率、年龄、美妆、遮挡、表情等问题的鲁棒性。人脸活体检测成为人脸识别应用安全瓶颈问题,人脸视频真伪可以通过检测动态眨眼摇头或者提取rPPG信息通过皮肤细微亮度变化来检测心跳,但是这种需要用户配合的方式耗时长用户体验差,因此静默活体检测成为重要研究方向。传统静默防伪方法基于纹理分析、高频图像特征等,目前深度学习成为静默活体检测的重点,例如朴素二分类方法、分块卷积网络方法、Auxiliary Supervision方法、深度图回归方法、深度图融合rPPG回归方法等。如何解决各种条件下人脸活体检测方法的泛化能力还是一个难点问题。

虹膜识别方面,LG、Panasonic、IrisGuard、IrisKing 等公司设计了一系列近距离虹膜图像采集设备。为了提高虹膜成像的便捷性同时为了拓展虹膜识别的应用范围,越来越多的机构开始着手远距离虹膜图像获取的研究,美国AOptix公司的InSight系统可以实现3米远的虹膜清晰成像。中科院自动化所提出基于光机电和多相机协同的虹膜成像模型,在虹膜图像获取装置中嵌入目标检测、质量评价、超分辨率、人机交互、活体判别等算法,赋予机器智能化赢取虹膜成像便捷化。实现了虹膜成像从近距离(0.3米)到远距离(3米)、从单模态(单目虹膜)到多模态(高分辨人脸和双目虹膜)、从“人配合机器”到“机器主动适应人”的创新跨越,并研制成功4D光场虹膜成像设备,通过高分辨率光场相机、四维光场获取与数据处理、重对焦、深度估计、超分辨等核心算法的系统研究,实现了虹膜/人脸成像从小景深到大景深(6倍景深拓展)、从单用户到多用户、从2D到3D的重大技术跨越,建设的CASIA虹膜图像数据库在170个国家和地区的3万多个科研机构和企业推广应用。虹膜识别算法的两个主要步骤是虹膜区域分割和虹膜纹理特征分析。虹膜区域分割大致可以分为基于边界定位的方法和基于像素分类的方法。虹膜纹理特征分析包括特征表达和比对两部分。特征表达方法从复杂的纹理图像中提取出可用于身份识别的区分性信息,其中代表性的工作有基于Gabor 相位的方法、基于多通道纹理分析的方法、基于相关滤波器的方法、基于定序测量的方法等。传统的虹膜识别算法多采用人工设计逻辑规则和算法参数,导致算法泛化性能欠佳,不能满足大规模应用场景。数据驱动的机器学习方法从大量训练样本中自动学习最优参数,可以显著提高虹膜识别算法精度、鲁棒性和泛化性能。大规模虹膜识别应用带来了许多新的挑战,虹膜特征的快速检索、多源异质虹膜图像的鲁棒识别成为当前虹膜识别的研究难度和热点问题。中科院自动化所受启于人类视觉机理,提出使用定序测量滤波器描述虹膜局部纹理,并设计了多种特征选择方法确定滤波器最优参数;首次将深度学习应用于虹膜识别,提出了基于多尺度全卷积神经网络的虹膜分割方法和基于卷积神经网络的虹膜特征学习方法;探索了深度学习特征与定序测量特征的互补性关系;系统研究了基于层级视觉词典的虹膜图像分类方法,显著提升了虹膜特征检索、人种分类和活体检测精度。

从应用角度看,面部生物特征识别应用广泛,可应用于安防监控、自动门禁系统、身份证件的鉴别、银行ATM 取款机以及家庭安全等领域。具体来看主要有:1)公共安全:公安刑侦追逃、罪犯识别、边防安全检查;2)信息安全:计算机、移动终端和网络的登录、文件的加密和解密;3)政府职能:电子政务、户籍管理、社会福利和保险;4)商业企业:电子商务、电子货币和支付、考勤、市场营销;5)场所进出:军事机要部门、金融机构的门禁控制和进出管理等。

2. 手部生物特征识别

手部生物特征主要包括指纹、掌纹、手形以及手指、手掌和手背静脉,这些生物特征发展早期主要采取结构特征进行身份识别,例如指纹和掌纹中的细节点、静脉中的血管纹路、手形几何尺寸等,但是近些年来基于纹理表观深度学习的方法在手部生物特征识别领域得到快速发展。

指纹识别技术主要包括三方面内容,即指纹图像采集、指纹图像增强和指纹的特征提取及匹配。在电子计算机被发明后,基于光学的指纹采集设备替代了传统的油墨,极大提高了指纹的采集、识别以及存储效率。随后,基于电容式传感器的指纹采集装置出现,广泛应用于苹果手机等移动终端设备的用户身份认证系统中,主要包括按压式和刮擦式两种。除此以外,基于温度传感器、超声波和电磁波的指纹采集技术也都被提出,且各有所长。近些年,非接触式的3D指纹采集系统也被提出以改善用户体验与识别精度。指纹图像增强主要包括图像平滑(去燥与指纹纹路拼接)、图像二值化(前后景分离)和细化(指纹骨架获取)三部分。频域滤波、Gabor变换和匹配滤波器等传统图像处理方法可以有效地去除指纹图像中的噪声,检测、补全指纹纹路中的断点并进行细化。随着深度学习的发展,深度卷积网络凭借其强大的特征提取能力,在扭曲指纹图像校正等指纹图像增强的相关问题中得到广泛应用。指纹图像特征提取与匹配方法可以大体分为方向场特征法与特征点法两类。方向场描绘了指纹图像的纹脊和纹谷分布,是指纹图像匹配的重要依据。有很多方法被提出以减小噪声对于方向场计算的影响并且提高运算效率。特征点指的是指纹图像中常见的纹路模式,包括拱形、帐弓形、左环形、右环形、螺纹形等主要指纹纹型。特征点的区域分布特征和旋转不变性等特性也常被用来提高识别算法的鲁棒性。随着指纹识别技术在不同场景中得到应用,采集到的指纹图像质量参差不齐,有时甚至无法得到完整指纹,所以部分指纹图像识别问题是目前的一个研究热点。除此之外,为了保障用户的个人财产安全,指纹识别技术中的活体检测问题也是研究人员重点关注的问题。为了解决这个问题,一方面可以从硬件角度在指纹采集系统中加入额外传感器以检测手指的温度、颜色和血液流动情况等活体要素,另一方面可以从图像质量的角度对采集到的指纹数据进行评估,从而筛选出高质量的活体指纹。

掌纹是位于手指和腕部之间的手掌皮肤内表面的纹路模式,在分辨率较低的掌纹图像里比较显著的特征包括主线、皱纹线和纹理,在高分辨率的掌纹图像里我们还可以看到类似于指纹图像里的细节特征,例如脊线、细节点、三角点等。和其他生物识别方法相比,掌纹识别有很多独特的优势:信息容量高、唯一性好、适用人群广、硬件成本低、界面友好、采集方便、用户接受程度高、干净卫生。基于掌纹的身份认证首先是从刑侦领域得到应用,因为在犯罪现场30%的可用信息都是来自掌纹。但是司法公安领域的掌纹图像主要是由专家人工比对,并且分辨率要求比较高(一般在500dpi左右)。自动掌纹识别研究起步于上世纪末期,已有的掌纹识别方法根据特征表达方法可大致分为三类:1)基于结构特征的掌纹识别方法,早期的掌纹识别研究都是模仿指纹识别的特征提取和匹配方法,提取掌纹图像中的特征线或者特征点进行结构化的匹配。这种方法需要高分辨率的掌纹图像才能准确提取结构化特征,特征提取和匹配的速度较慢,对噪声敏感,但是可用于大规模掌纹图像库的检索或粗分类。2)基于表象分析的掌纹识别方法,这类方法将掌纹图像的灰度值直接当成特征向量,然后用子空间的方法来线性降维。例如基于PCA、LDA或者ICA的掌纹识别方法。这类方法可以快速识别低分辨率的掌纹图像,但是对可能存在的类内变化比较敏感,例如光照和对比度变化、校准误差、形变、变换采集设备等。并且需要在大规模测试集上训练得到最佳的投影基,推广能力差。3)基于纹理分析的掌纹识别方法,直接将低分辨率的掌纹图像看成是纹理,丰富的纹理分析算法资源就可以充分利用。例如傅立叶变换、纹理能量、Gabor相位、能量和相位的融合算法、皱纹线的方向特征等。这类方法大部分都是提取掌纹图像局部区域的光照不变特征,对噪声干扰的鲁棒性强,分类能力和计算效率都很理想,是比较适合于掌纹识别的图像表达方法。中科院自动化所将定序测量虹膜特征表达方法推广到掌纹识别,建立了掌纹图像特征表达的一般框架,统一了该领域识别性能最好的三种掌纹识别方法,并提出了新颖的十字架形微分滤波器来抽取掌纹图像中的定序测量特征,取得了比主流方法更快更准的识别效果。为了提高掌纹识别精度和活体检测能力,香港理工大学提出三维掌纹图像获取与识别方法。

手指、手掌、手背的静脉结构人各有异,通过近红外透射式或者反射式成像形成静脉纹路图像。2000年日本医学研究者Kono首次提出使用手指中的静脉血管进行身份识别,之后模式识别科研人员提出了多种特征表达模型:1)细节点特征,例如分叉点和端点,尺度不变特征变换;2)静脉纹路特征,例如平均曲率、最大曲率、线性跟踪方法;3)子空间降维,例如主成分分析、流形学习、线性判别分析;4)局部二值码,例如局部二值模式、局部差分模式、局部线性二值模式;5)深度神经网络提取纹理特征。由于安全性高,静脉识别在金融领域得到成功应用。

3. 行为生物特征识别

行为生物特征识别是通过个体后天形成的行为习惯如步态、笔迹、键盘敲击等进行身份识别。行为生物特征识别可用于持续性活体身份认证,例如金融、商业、政府、公安等应用领域。近些年也出现了一些新兴的行为生物特征模态,例如利用智能手机的划屏行为、网络社交媒体的统计行为特征进行身份识别。

在行为生物特征中,步态识别(gait recognition)是指通过分析人走路的姿态以识别身份的过程,它是唯一可远距离识别且无需测试者配合的行为生物特征。美国911 事件等恐怖事件以后,远距离身份识别研究在视觉监控等领域引起了浓厚兴趣。在银行、军事装置、机场等重要敏感场合,有效准确地识别人、快速检测威胁并且提供不同人员不同的进入权限级别非常重要。最早的步态用于身份识别的研究是上世纪90年代来自英国南安普顿大学的Mark Nixon教授团队。2000年,美国DARPA启动了HID(human identification at a distance)计划,旨在解决远距离虹膜、人脸和步态识别研究,麻省理工、佐治亚理工、南安普顿、马里兰、中佛等多家高校参与了该项目的研发工作。

为了发挥步态的远距离识别优势,需要同时解决行人分割和跨视角步态识别两大难题。早期的研究都是基于固定摄像机的假设下、使用计算机视觉中的背景建模与运动检测等技术来解决人体检测和分割问题,但是精度和效率一般。针对高精度快速人形分割这一困扰业界多年的难题,中科院自动化研究所自2013年起提出了一系列解决方法,其中代表性的创新方法是基于上下文的多尺度人形分割网络,通过采用多个尺度的图像作为输入,来训练卷积神经网络预测图像的中心点,能够有效克服不同背景、衣服各异、姿态变化、不同尺度等影响。

在过去的20多年里,一系列经典的步态识别算法相继提出用以解决步态识别问题,包括基于特征表达的方法,以及基于模型和相似度或度量学习的方法。在这些方法中,大多数研究是设计用于步态识别的特征表达。基于特征的步态识别方法通常从步态剪影中提取得到,通过处理一个剪影序列(通常为一个步态周期)可以生成特定的步态模板。常见的步态特征模板包括GEI(Gait Energy Image),GEnI(Gait Entropy Image), GFI(Gait Flow Image)以及 CGI(Chrono Gait Image)等。

随着深度学习在计算机视觉领域的成功应用,许多数据驱动的方法逐渐被引入到步态识别之中,通常可以学习到更好的特征表达。DeepCNN提出采用一种基于深度卷积神经网络CNN的框架学习成对的GEI之间的相似度,从而实现跨视角步态识别,取得了当前最好的识别准确率,在CASIA-B步态数据集上实现了94%的跨视角识别准确率。近些年复旦大学尝试将步态剪影序列看做一个图像集(GaitSet)并从中直接学习步态表达,而不再使用步态能量图GEI,在多个公开的跨视角步态数据集上取得了当前最优的性能。这种方法的优势在于其可以充分利用CNN的强大学习能力,将整个步态序列的每一帧图像都作为训练样本。另外,该方法也避免了生成GEI方法通常中会损失部分信息的局限,可以通过遍历整个步态序列学习不同步态图像之间的差异。这种思路取得的性能证明了通过小片段序列学习步态特征的可行性。

在产业化推动方面,步态识别领域进展迅速。中科院自动化所率先建成了全球最大的户外步态数据库,采集了1014个行人的76万段步态序列,其数据量是此前最大数据库规模的100倍。2016年,由中科院自动化研究所孵化的第一家步态识别商业化公司——银河水滴科技公司成立。该公司拥有行业领先的步态识别技术以及超大型步态数据库,在“远距离步态识别系统研究与应用”方面曾获北京市科技技术二等奖,其研发的“水滴神鉴”人脸步态智能检索一体机可以通过步态识别技术迅速锁定目标人员,提高破案效率以及公共安全的智能化水平。2017年9月,步态识别技术亮相CCTV 1“机智过人”节目,获得CCTV人工智能年度盛典机智先锋团队称号,产生显著的社会效益和影响。2019年,水滴科技凭借远距离步态识别技术在世界人工智能大会上荣获最高奖(卓越人工智能引领者奖)。步态识别技术已经成功应用于智能家居、智能机器人、视觉监控等领域。

笔迹鉴别由于具有易采集性、非侵犯性和接受程度高的优点,在金融、司法、电子商务、智能终端有应用需求,上世纪70年代以来开展了大量研究。笔迹鉴别的对象是手写文档或签名(针对签名的笔迹鉴别又称为签名认证), 数据采集形式可以是联机(用手写版或数码笔记录书写时的笔划轨迹)或者脱机(对写在纸上的笔迹扫描或拍照获得图像)。文档笔迹鉴别方法又分为文本无关方法或文本相关方法,前者对任意内容的文本提取书写风格特征,后者从指定内容(不同人书写的相同文本)提取特征。文本相关方法的精度更高但依赖于文本内容或需要字符分割选出特定字进行分析。签名认证一般是把一个手写签名与指定身份书写人的参考签名(身份注册时留下的签名样本)比较判断是否为同一人所写(为真实签名或伪造签名),伪造签名的判别是一个难点。文档笔迹鉴别和签名验证研究中提出了很多特征提取方法,如基于纹理分析、全局形状分析和局部形状分析的特征,字符识别中常用的特征(如轮廓或梯度方向直方图)也常用于笔迹鉴别。近年来,深度卷积神经网络(CNN)也越来越多地用于笔迹鉴别的特征提取。对签名验证,常用孪生卷积神经网络(Siamese CNN)对两幅签名图象同时提取特征并计算相似度,特征与相似度参数可端到端训练。跟传统方法相比,深度神经网络也明显提高了文档笔迹鉴别和签名认证的精度。

4. 声纹识别

声纹识别,又称说话人识别,是根据语音信号中能够表征说话人个性信息的声纹特征,利用计算机以及各种信息识别技术,自动地实现说话人身份识别的一种生物特征识别技术。声纹是一种行为特征,由于每个人先天的发声器官(如舌头、牙齿、口腔、声带、肺、鼻腔等)在尺寸和形态方面存在差异,再加之年龄、性格、语言习惯等各种后天因素的影响,可以说每个说话人的声纹是独一无二的,并可以在相对长的时间里保持相对稳定不变。

从发音文本的范畴,声纹识别可分为文本无关、文本相关和文本提示三类。文本相关的 声纹识别的文本内容匹配性明显优于文本无关的声纹识别,所以一般来说其系统性能也会相对好很多。但是,文本相关对声纹预留和识别时的语音录制有着更为严格的限制,并且相对单一的识别文本更容易被窃取。相比于文本相关,文本无关的声纹识别使用起来更加方便灵活,具有更好的体验性和推广性。为此,综合二者的优点,文本提示型的声纹识别应运而生。对文本提示而言,系统从声纹的训练文本库中随机地抽取组合若干词汇,作为用户的发音提示。这样不仅降低了文本相关所存在的系统闯入风险,提高了系统的安全性,而且实现起来也相对简单。

在20世纪40年代,Bell实验室的L.G.Kersta等人借助肉眼观察语谱图发现不同人的发音在语谱图中具有差异性,提出通过观察语谱图实现说话人识别。根据语谱图上的共振峰纹路,首次提出了“声纹”的概念。1966年,随着计算机技术的不断进步,声纹识别逐步由单纯的人耳听讲,转向基于计算机的自动识别。早期的声纹识别主要采用有效的声学特征参数和模式匹配的方法,匹配往往通过特征矢量之间的距离测度来实现,累计距离为匹配结果。到20世纪70年代至80年代,动态时间规整、矢量量化和隐马尔科夫模型技术的出现极大地促进了语音识别性能的提升。2000年前后,声纹识别技术迎来第一个关键的发展节点,D. Reynolds等人提出的通过大量背景数据训练通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM/UBM)的方法,对所有说话人的整体发音特性进行统一建模。进入21世纪后,在传统高斯混合模型-通用背景模型的方法上,P.Kenny、N. Dehak等人先后提出了联合因子分析技术(jiont factor analysis,JFA)和扰动属性干扰算法,使得声纹识别在复杂背景条件下也能取得较好的效果。由JFA建模思想得到启示,提出基于总体变化因子向量(identity vector,i-vector)的说话人建模方法,这也是该研究领域的经典技术之一。后来研究人员为了解决信道失配问题,在i-vector基础上引入有类内协方差归一化(Within-Class Covariance Normalization, WCCN)、概率线性鉴别分析(Probability Linear Discriminant Analysis, PLDA)等区分技术。2012年以来,基于深度网络的特征学习方法,利用复杂非线性结构赋予的特征提取能力,能自动对输入的语音信号进行特征分析,提取出更高层、更抽象的说话人声纹表征,如d-vector、x-vector等。相对于传统的 i-vector 生成过程,基于深度学习的说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的有效表示上。d-vector是基于深度神经网络(deep neural networks,DNN)框架下的说话人识别系统,通过训练说话人标签的DNN模型,提取测试说话人语音的瓶颈特征,对瓶颈特征进行累加求均值,得到语音的d-vector。第二个关键发展节点是D. Snyder等人提出x-vector方法,该模型突破GMM-UBM模型的结构上的缺陷,直接将说话人的标签作为时延神经网络(time delay neural networks,TDNN)的输出,并能比较好的充分利用更多的训练数据提升模型的识别效果。由于语音经过TDNN时延网络,可以从输出层得到关于输入语音帧的长时特征,因此x-vector在短时说话人识别中能够达到更高的准确率。2016年,Google的Heigold等人提出了端到端声纹识别系统,端到端的网络包含两部分:预先训练好的特征提取网络和用于决策打分的判决网络,输入为不同说话人的语音信号,输出即为说话人识别结果,之后如注意力机制、自适应方法等在端到端系统中的应用进一步提高了系统的性能。

声纹识别术在实际生活中有着广泛的应用,可以分为声纹确认、声纹辨认、声纹识别和声纹追踪,在军事、国防领域,有力保障了国家和公共安全;在金融领域上,通过动态声纹密码的方式进行客户端身份认证,可有效提高个人资金和交易支付的安全;在个性化语音交互中,有效提高了工作效率;除此之外,还在教育、娱乐、可穿戴设备等不同方面取得了不错的效果。

声纹识别的广泛应用与其技术的发展进步是息息相关的。在实际应用中,声纹识别还面临着以下挑战:鲁棒性挑战、防攻击挑战、超短语音挑战等。如何解决这些挑战是未来的发展方向。

5. 图像和视频合成

随着数字化时代的不断发展,人们的生活中充满了大量的数字化影像,比如日常拍摄的照片以及录制的视频,还有各类互联网娱乐应用的图像与视频内容。然而随着图像与视频合成技术的不断进步,曾经“眼见为实”的断言到如今也已失效,图像与视频合成技术就是能够按照需求生成对应的图像与视频的技术,比如根据描述生成一幅图像,根据肖像画生成一个人的照片等。对于图像和视频的合成,可以是对既有画面的编辑和修改,也可以是合成全新的完全不存在于现实的景象。对于具体的单幅图像合成和视频的合成也有技术实现上的区别,下面对其发展进行介绍。

在计算机视觉领域中,图像合成是一个重要研究方向。在深度学习技术兴起之前,机器学习技术主要聚焦于判别类问题,图像的合成主要通过叠加与融合图像等方式进行。而随着深度学习技术的迅速发展以及计算硬件性能的快速提升,生成式模型得到了更为广泛和深入的研究。变分自编码机(VAE)就是一类有效的方法,能够稳定的合成图像,但是其合成的图像一般较为模糊,缺少细节。而2014年Ian Goodfellow提出了Generative Adversarial Network(GAN),为图像与视频的合成带来了令人惊艳的技术,其合成的图像逼真自然且拥有锐利的细节,对后续图像与视频合成的研究产生了深远影响。自此之后,图像和视频合成领域产生了大量基于GAN的生成模型的改进方法,从不同角度改良其生成过程的不足。同时随着近年来计算技术的发展和计算资源的性能提升,不论是单帧图像的合成还是视频的合成,都达到了高分辨率、高逼真度的效果。

由于早期的生成式模型研究受限于计算资源以及算法能力,大多聚焦于简单离散数据的生成研究,所以这里主要介绍近些年来基于深度生成模型的图像及视频合成方面的研究进展。早期的图像视频合成主要依托字典学习和马尔科夫方法,利用学习好的基图像进行合成和推理。目前主流的图像视频合成类方法主要有四大类,第一类方法是GAN,目前最火热也是被研究最多的一类方法,有多种变体,其代表性的方法如CycleGAN,PGGAN,BigGAN等。第二类方法是VAE,其具有代表性的方法主要有Intro-VAE,BetaVAE,InfoVAE等。另外两类方法相比于前两类收到的关注度较小,分别是流模型与自回归模型,其具有代表性的成果如Glow及PixelCNN,PixelRNN等。此外,基于深度学习的压缩感知在采样规模和信号重建角度研究了图像和视频数据的重构问题。

文字图像的合成由于其问题的挑战性(特别是手写文字的合成)和蕴藏的巨大商业价值,近年来一直吸引了很多的研究者。文字图像的合成虽然也可以采用常用的场景图像合成技术,但是由于文字的特殊结构性,因此,围绕文字图像的合成也产生了一系列的研究成果。主流的方法可以分为三大类,第一类是基于模板的方法,主要是将文字表示为笔画或者部首的层次化模板,然后在先验知识的引导下生成不同风格的文字,这类方法思路直观,但对合成复杂结构的文字效果欠佳。第二类方法是基于GAN的方法,这类方法主要是借鉴了基于GAN的各种变体的场景图像的合成技术来完成文字图像的合成。这类方法相对于模板的方法虽然取得了巨大的进步,但是这类模型常常会不可控地生成无意义的,或者模糊不清的文字。第三类方法是基于RNN的方法,这类方法将文字的书写过程引入文字的生成过程,在在线样本(含有笔顺信息)的帮助下,采用RNN模拟文字的一笔一划的书写过程来合成文字。相对前两类方法,第三类方法不仅能够生成风格更加多样,而且也能生成更加逼真的文字图像。但是这类方法也需要大量的训练样本来完成RNN书写模型的训练。

图像与视频的合成在计算机视觉领域中有着重要地位,其成果带动了相关领域的研究和应用。如GAN在语音合成、文本生成、音乐生成等领域的应用,使其效果产生了质的飞跃。而图像与视频合成在当今社会及商业中也应用广泛,在娱乐方面有着各类美妆类、变脸类应用,而在安防领域有着异质图像合成、肖像自然图像合成等重要应用。在未来,对于图像与视频合成的深入研究将在更为广泛的领域产生更加深远的影响。

6. 遥感图像分析

遥感图像处理旨在通过对遥感图像的分析来获得有关场景、目标的特征及规律。遥感图像处理既指从遥感图像获取特征或规律的技术或手段,也指获取特征或规律后的应用目的。遥感图像处理所获取的特征主要包括时间特征、空间特征、语义特征,所获取的规律主要包含地物真实特征与图像特征的对应关系及从图像获得的场景、目标与周围环境或时间的演变或变化规律。

在遥感图像处理中,特征提取是开展基于模式识别技术研发与应用的基础,主要包含时间特征、空间特征和语义特征提取。空间特征描述地物或目标与近邻位置的空间相似关系,常用的空间特征包括局部自相似特征、分形、纹理等,主要通过颜色与形状分析和图像分割等手段来实现。时间特征描述多时相图像关于场景、目标的时间变化特性,主要通过变化检测手段来实现。语义特征描述遥感图像场景及地物目标的属性、类型或相关概念,主要通过模式分类等手段来实现。规律是利用多源、多时相等多种遥感图像并在辅助数据、专家知识的基础上形成的在更长时间、更大空间上关于某种地物、目标的成像规律或时空演变规律。围绕空间特征和时间特征提取,遥感图像处理主要进展集中体现在遥感图像融合、遥感图像解译、变化检测、高光谱解混、高光谱分类等几个方面。

遥感图像融合的基本任务是针对同一场景并具有互补信息的多幅遥感数据或其它观测数据,通过对它们的综合处理、分析与决策手段,获取更高质量数据、更优化特征、更可靠知识的技术和框架系统。根据遥感数据获取来源,可分为多源与多时相遥感图像数据融合的方法。多源遥感图像融合通过将多个传感器和信息源的数据进行联合、相关、组合,以获取目标更精确、更全面的信息,根据图像融合的层次,又可分为像素级、特征级、决策级融合。多时相遥感图像融合主要包括基于预处理、基于分类、基于变化检测、基于信息提取、基于环境应用等多时相数据融合方法。

遥感图像解译的基本任务是对遥感图像中各种待识别目标的特征信息进行分析、推理与判断,最终达到识别目标或现象的目的。目标识别、检测、分割是实现遥感图像解译的基础。在方法上,这些任务大多被描述为一个模式分类问题,主要采用决策树、支持向量机、人工神经网络、线性判别分析和最近邻分类器、聚类等方法来实现。目前,深度学习方法已成为遥感图像解释的主流方法,在目标识别、检测、语义分割中取得较优的性能。在深度学习框架下,主要针对两阶段Faster-RCNN、FPN、Cascade R-CNN,以及一阶段的网络YOLO系列、SSD、RetinaNet、RefineDet等进行适应性改进。特别地,针对遥感图像,近些年R3Net、YOLT等网络结构在遥感图像目标检测中展现了较好的性能,主要包含城市目标检测、舰船检测、飞机检测、海面/陆地检测与分离、云/雪检测、特定目标检测。在遥感图像语义分割方面,主要基于FCN、SegNet、DeepLab和SharpMask等深层神经网络进行改进,通过重训练网络使之适应遥感图像数据和任务,主要包含城市道路分割、城市典型目标分割、感兴趣农作物分割、水域分割、云/雪分割等。

变化检测的基本任务是利用不同时间获取的覆盖同一地表区域的遥感图像来确定和分析地表变化。根据变化分析的层次,变化检测方法可分为像素级变化检测、特征级变化检测以及对象级变化检测。当前,变化检测的进展集中体现在深度学习方面,主要包含基于卷积神经网络、深度置信网络和自编码器的变化检测方法,基于非受限玻尔兹曼机的SAR图像变化检测、栈式噪声自编码器与栈式映射网络变化检测、深度映射变化检测、深度聚类变化检测等。

高光谱解混的基本任务是估计高光谱图像中地物目标端元(如“树”、“水”等纯物质)及其像素级丰度的技术。根据所使用的解混模型,高光谱解混可分为基于几何的方法和基于统计的方法。由于非负矩阵分解(Nonnegative Matrix Factorization,NMF)存在解空间大,只能收敛到次优局部极值点等缺陷,一些基于NMF的扩展方法也被相继提出,如非光滑NMF、最小体积限制 NMF、结构稀疏NMF、端元相异性约束NMF等方法。近年来,基于神经网络模型的解混方法也被相继提出,包括多层感知器、自组织映射网络、自适应共振理论映射模型、深度回归网络等。

高光谱图像分类的基本任务是对高光谱图像中的每个像素进行分门别类,以达到对地物、目标进行高精度分类和自动化识别的目的,是对地观测的重要组成部分。然而,高光谱图像的高维特性、波段间高度相关性、同物异谱、同谱异物、光谱混合等特点使得高光谱图像分类面临巨大挑战。早期应用于高光谱图像分类的机器学习方法有支持向量机、K-近邻法、朴素贝叶斯、决策树、基于稀疏表达的方法等。近年来,随着深度学习新技术的出现,基于深度学习的高光谱图像分类方法在方法和性能上取得了突破性进展,该类方法能够通过训练集来学习自动地获得数据的高级特征,使得分类模型能更好地表达数据集本身的特点,提高分类精度,主要包含基于3D-CNN的方法、基于空-谱残差网络的方法、基于深度金字塔残差网络的方法、基于生成式对抗网络的方法等。

目前遥感数据处理已经广泛应用于自然环境监测、国防安全、农林普查、矿物勘探、灾害应急、交通运输、通讯服务、规划修编等一系列实际任务。


*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。

权威发布|模式识别应用技术重要研究进展(一)的评论 (共 条)

分享到微博请遵守国家法律