深度好文|模式识别应用技术未来重要研究问题
全文大纲如下:
1. 非受控环境下的可信生物特征识别
2. 生物特征深度造假和鉴伪
3. 遥感图像弱小目标识别和场景理解
4. 医学图像高精度解释
5. 复杂文档识别与重构
6. 异构空间网络关联事件分析与协同监控
7. 神经活动模式分析
以下为正文内容,建议收藏加关注,近期将继续推送系列报告文章~喜欢的话点个赞吧^-^

引言
模式识别是研究对数据中存在的物体、行为、现象等模式进行检测、描述和判别的学科,是人和机器感知环境、从环境获取知识的主要途径。模式识别的发展紧密围绕着三个核心要素展开,即特征提取、建模与推理、学习与优化。为了解决识别过程中面临的各种变化因素,需要尽可能提出鲁棒的特征表示,尽可能对影响识别任务的各种因素建模,尽可能提出能够获得全局或局部最优解的模型学习算法,这些都是推动模式识别发展的重要驱动力。
过去50多年里,模式识别领域中语音处理、语言理解、图像处理与计算机视觉等方向的研究发展迅速。特别是近20年来,随着大数据和高性能计算的飞速发展,以深度神经网络为代表的深度学习在视听觉、语言、规划、控制等方面取得了突破性进展。以模式识别为代表的人工智能技术已成为21世纪最伟大的科技进展之一。
模式识别研究与应用近年来取得了很多令人瞩目的成就,在社会经济发展和国家公共安全等领域应用日益广泛。比如,语音识别、图像识别、视频理解、生物特征识别、多媒体信息分析、智能医疗、机器翻译、遥感图像处理等都是目前发展较快的模式识别应用技术领域。语音识别技术已逐步成为信息技术中人机接口的关键技术,它的应用已经成为一个具有竞争性的新兴高技术产业;生物特征识别是智能时代最受关注的安全认证技术,它凭借人体特征来唯一标识身份,在智能家居、互联网金融、军事装置等领域发挥重要作用;多媒体信息分析以高效的方式对不同模态的异构数据进行智能感知、管理、挖掘和理解,从而服务于舆情分析、网络信息安全、敏感音视频过滤等实际应用;智慧医疗通过医学图像处理和分析,从而辅助医生早期诊断、辅助治疗和预后评估等;遥感图像识别已广泛用于农作物估产、资源勘察、气象预报和军事侦察等。
可以预见,在未来高度“智能化+信息化”的世界中,模式识别将变得无处不在,其基础理论研究会越来越深入,应用场景会越来越复杂,应用领域会越来越宽广,从而对特定的模式识别技术会要求越来越高。21世纪是数字化、信息化、网络化、智能化的世纪,作为人工智能技术基础学科的模式识别技术,必将获得巨大的发展空间。这次以人工智能为核心的科技变革中,原有的研究问题和方法以及对智能技术和产品的应用需求,都将发生前所未有的变化,势必经历从简单个体识别到复杂关系推理,从被动环境感知到主动任务探索,从可控简单应用场景到非可控复杂应用场景等变化,这给模式识别技术的发展带来新的机遇和挑战。为了适应科技变革带来的一系列变化和应用需求,必须融合视觉、听觉、语言、认知、学习、机器人、博弈、伦理与道德等各学科的研究成果,提出以应用为中心的特征表示,建立以时间、空间、因果等为考虑因素的计算模型,并且结合实际的应用场景提出特定的理论方法和技术体系。
总之,随着当前模式识别技术在不同领域的广泛应用,以及不同实际应用场景下所衍生的差异性、特定性等因素,相应的模式识别技术自然出现了新的重要研究问题。面向不同领域的重大应用需求,结合信息化、智能化对模式识别提出的新挑战,提出高可靠、高精度、高效率的模式识别应用技术成为亟待解决的关键问题。下面,挂一漏万,列出一些模式识别应用技术未来发展的重要问题,以期推动该领域的学科发展和技术创新。
1. 非受控环境下的可信生物特征识别
从手机解锁、小区门禁到餐厅吃饭、超市收银,再到高铁进站、机场安检以及医院看病,虹膜、人脸、指纹等可信生物特征已成为人们进入万物互联世界的数字身份证。生物特征识别是“新一代人工智能规划”、“互联网+行动计划”等国家战略的重点发展领域,也是计算机视觉和模式识别学科前沿方向。
主流生物特征识别经过系统研究积累了丰富的理论和方法,在严格受控的条件下可以正确识别高度配合的用户,但是在生物特征图像受到内在生理变化(如眨眼、斜视、姿态、表情、运动等)和外界环境变化(如光照、遮挡、距离等)时生物识别的性能急剧下降,不能满足现实世界非受控环境下身份识别的需求。另外生物特征识别系统安全性,例如活体检测、模板保护等也是急需解决的重要问题。
面对弱光照、低质量、非配合、高动态等复杂场景下多源异质的多模态生物特征,如何设计最优的信息融合模型精准刻画不同个体之间、真假数据样本之间的差异,突破现有生物特征识别的“感知盲区”、“决策误区”和“安全红区”,实现等错误率逼近于零的精准身份识别,是可信生物特征识别拟解决的关键科学问题,需要重点解决非受控条件下的精准成像、精准识别和精准鉴伪问题。从单模态到多模态信息融合、从受控场景到复杂场景、从身份识别到活体检测是生物识别学科发展方向,可信生物特征识别的技术路线是提出基于多模态(人脸、虹膜、步态、声纹等)、多层次(设备层、图像层、特征层、分数层)、多协同(数据和知识协同驱动机器学习模型、成像硬件和算法软件协同融合)信息融合策略的精准身份识别方法,引入视觉认知机理鲁棒建模生物特征,通过计算成像和融合模型的协同创新突破现有生物特征识别的性能瓶颈,面向公安反恐、金融支付、社保认证、安检通关等实战应用需求构建等错误率百万分之一的移动端和远距离场景精准身份识别验证系统,满足国家关键领域对高精度、高可靠、高安全身份识别技术的迫切需求。新的生物特征如大脑信息、基因信息等有待进一步开发研究与应用。
2. 生物特征深度造假和鉴伪
随着图像生成模型(GAN、VAE等)的快速发展,计算机合成生物特征图像,尤其是合成人脸的逼真度越来越高,在欺骗人眼的同时对互联网内容可信性造成了巨大冲击。最新的人工智能技术可以让普通人方便地制作换脸视频或生成高清人脸图像,这就是被称为“深度伪造”的一系列技术。其严峻性在于简易、开源、效果极佳的软件赋能大量普通用户方便地制作并传播伪造内容,同时对伪造内容的鉴伪也成为图像取证领域亟待解决的重大问题。
生物特征深度造假和鉴伪的技术难点与研究重点在于如何从正反两方对抗中提出鲁棒可解释的有效取证方法并探究二者的博弈平衡。具体包括以下重要问题:(1)取证模型的泛化能力不足,目前主流方法使用深度学习模型,在公开的数据集上取得了非常高的检测指标,一些情况下甚至超过99%的检测准确率,但是检测低质量或未知类型深度造假图像时性能下降剧烈。(2)基于深度模型的取证方法可解释性差,网络极可能拟合了某种未知的非篡改特征,这也造成模型没有泛化能力。(3)基于多线索的取证方法虽然鲁棒性和可解释性更佳,但适用范围受限,仅仅针对某一种专家设计的取证线索,不具有广泛适用性,且容易被新的深度造假技术掩盖。(4)深度造假技术尚不能在更精细的场景规律与细节特征上实现高质量,这些瑕疵很容易被取证方法利用和攻破。(5)鉴伪与造假之间的交互对抗框架尚未成型,目前两个研究领域各自独立发展,且取证研究远滞后于造假技术。解决这些问题的一个思路是以对抗的视角整体审视深度造假与鉴伪,将二者加入对抗学习的框架中使二者相互促进,不断进化。并设计专家知识指导的先验或者约束形式,防止对抗学习进入无意义的猫鼠游戏,确保取证模型更具有可解释性。
3. 遥感图像弱小目标识别和场景理解
遥感图像场景理解和弱小目标识别是指针对特定的任务从遥感图像中检测、识别出弱小目标、小目标,并结合弱小目标的语义信息及上下文信息对弱小目标所处的背景、环境及整个场景进行推理、理解的技术和过程。与传统的目标识别相比,弱小目标可分性更差,更容易被漏检或错检,弱小目标识别更具挑战性。但对于实际应用来说,弱小目标往往携带更加重要的信息,一旦漏检或错检,其对应用的损失比传统的目标误识要大得多。因此,弱小目标的识别具有非常重要的应用价值和研究意义。
弱小目标识别和传统目标识别的基本原理类似,均涉及特征提取与描述、分类器构造等模式分类的关键技术。但弱小目标的特征响应很弱,容易被背景、噪声淹没;弱小目标的尺寸小且尺寸、形状不一,特征提取时很难自适应地选取大小、形状合适的邻域。因此,不合适的特征提取会大幅度降低特征的表征能力、增加特征分类的难度。
尽管弱小目标的特征不显著,但弱小目标在关键特征显著性、语义不变性、动态易变性等方面具有高度相似性。根据这些相似性可有效实现弱小目标的特征增强并将弱小目标与背景、噪声或非兴趣目标有效区分。根据弱小目标的关键特征显著性、语义不变性、动态易变性,弱小目标识别未来具体可能的研究途径如下:
基于关键特征显著性的可能研究方案是借助生成对抗网络生成弱小目标在不同波谱、不同尺寸下的训练样本,用于训练弱小目标识别的专用网络。基于弱小目标识别专用网络,通过数据驱动的方式,在网络学习过程中拟制非感兴趣目标区域的特征响应,同时强化弱小目标的关键特征。
基于语义不变性的可能研究方案是在目标性检测和尺度不变特征提取框架下构建数据和知识共同驱动的弱小目标语义特征学习方法,采用自下而上的方式提取可能的弱小目标,并进一步借助场景理解的语义信息完成弱小目标的筛选和识别。在目标用途方面,弱小目标往往是机动目标,具有动态易变性。因此,基于动态易变性的可能研究方案是在目标监测与跟踪框架下,通过分析多时相遥感图像序列中目标的动态变化,并进一步根据弱小目标与非感兴趣目标的变化差异来完成弱小目标检测和识别任务。
4. 医学图像高精度解释
模式识别的一个重要应用方向是对医学图像进行高精度解释。医学是一门注重实践、依赖循症的科学,新兴技术需要医生通过长期的实践进行分析总结,找到科学依据,再通过现代统计学的科学方法结合临床实践得到最大可能的验证。人工智能和机器学习能够帮助医生更加高效、准确的“看片子”,是医生的高效助手和强大助力。
然而,对医学图像进行高精度解释,需要使模式识别算法适用于多源异构、缺少标注的小样本数据应用场景。典型的应用场景往往具有样本量有限、特征高维异构、机器学习得到的模型泛化能力比较弱等不利因素,对模式识别算法设计提出了巨大的挑战。对于模式识别方法到实际系统来讲,数据不规范不完整,甚至标准不统一是致命的问题。因此,如何研发具有基于小样本且具有自适应迁移学习能力的机器学习方法,提出一系列适于全监督、半监督与弱监督的多模信息理解的核心算法与解决方案,实现面向大规模、有噪音标签、小样本多模信息的多粒度解析,是临床转化的关键途径之一。另外,目前的挑战也包含模式识别黑盒子和医学可解释性的对弈。提高机器学习模型的可解释性和透明度,将有助于模型的除错、引导未来的医学数据收集方向、为医学图像特征构建和人类决策提供真正可靠的信息,最终在医生、病人与模型之间建立信任。
目前深度学习方法能够在众多领域实现突破式的发展,除了算法的改进和创新以及强大的计算资源以外,一个重要的原因是拥有海量的标准规范的训练样本。医学大数据的出现和深度学习算法的提出与应用,也推动了很多特定领域机器智能水平的快速发展。但这些高水平的研究都是建立在大样本数据的基础上。因此,制约模式识别进一步在医学图像临床落地应用的要点就是解决融合临床场景的多源、异构、高维、多模态的异质大数据的获取和标准化,实现诊疗过程关键信息的智能交互、全数据链贯通、患者信息多模态全景呈现,构建可灵活拓展的多模态信息全景快速精准可视化平台。
模式识别中的很多端到端的方法可以快速得到较高的准确性。但是临床往往有很多同病异影,同影异病的情况,医学影像报告出具以后会传给临床医生,临床科医生会根据指南,结合患者的其他临床数据和身体特征判断,同时也需要对于结果进一步向患者解释病因。因此如何在基于机器学习的数据驱动结果和实际应用中能够提供可解释的结果找到平衡,提供给临床有价值的医学影像信息是对医疗影像智能识别系统的严峻挑战。
5. 复杂文档识别与重构
自20世纪50年代以来,作为模式识别领域分支之一的文字识别和文档分析方向开展了大量研究,在文档图像版面分析、文字和文本行识别等方面取得了巨大进展,推动了文字和文档识别技术在文档数字化、邮政、金融、档案、教育等领域的成功应用。然而,在实际应用中发现,现有方法的性能还有很多不足,有些场合还不能满足应用的需求。文档识别的最终目标是正确分割和识别文档中所有的文本和图形符号信息,把文档版面结构全部内容电子化,表示成结构化的电子文档(如Word、PDF等)。准确的识别和版式重构将使得文档识别技术在文字无处不在的现实社会得到普遍应用。
复杂文档识别与重构的技术难点和研究重点在于克服现有技术的不足:(1)复杂版面分析能力不足。版面样式变化特别多,而目前基于规则和基于深度学习的方法都不能解决所有版式的正确分割、逻辑分析、版面理解、版式还原(重构)问题。(2)识别精度和置信度不够。当前,自由书写和图像质量退化场合识别率会明显下降,即使对于识别率较高的场合,当前技术也不能根据识别结果的置信度将存疑字符标记出来,不便于人工校对或自动处理,也限制了文档识别在一些重要的新兴领域如机器人流程自动化(RPA)的大规模广泛应用。(3)小样本泛化能力不足。当前广泛使用的深度神经网络的泛化性能依赖大规模数据集训练,而有些应用场合难以收集标注大量样本来训练识别模型。(4)图形符号识别性能不足。图文混合文档中存在的表格、数理化公式及符号、流程图、签名印章等还不能得到满意的识别性能。(5)文档图像的内容理解与认知能力不足。目前大部分研究工作集中在解决文档图像中的文字信息感知问题(例如版面分割、文字检测、文字识别),对文档图像中的语义信息理解及信息发现还未得到很好的解决,典型的问题包括文档图像结构化理解(例如端到端信息抽取)、基于文档图像的视觉问答(Text VQA)等。
解决这些问题的一个基本思路是结合现有不同理论与方法的优点,建立一个更加灵活、可学习的文档结构和内容表示框架,充分利用不同类型、不同标记程度的文档数据和先验知识,结合自然语言处理新技术,构建从感知到认知的端到端文档图像分析、识别、理解统一框架。利用多种学习方式构建模型,研究符合类人直觉的置信度建模方法和可解释机器学习方法,并可考虑在学习和识别过程中引入流程自动化、人机交互或人机回圈(Human in the loop)等机制,构建跨学科文档图像分析、识别与理解研究新范式。
6. 异构空间网络关联事件分析与协同监控
现实世界中的复杂事件往往存在于不同的异构空间。例如,社会热点事件同时存在于物理空间和网络空间,这两个社会空间既相对独立又关联耦合。物理空间(现实世界中的各类场景)的人类活动主要体现社会大众的“行”,而网络空间(不同社交平台,如新浪微博、腾讯微博、Facebook和Twitter 等)的社会媒体更多反映网民群体的“言”。针对这些事件存在的跨空间交融、大数据与多模态等特性,异构空间网络关联事件分析与协同监控力求对存在于异构空间中的事件数据进行协同地关联、分析、监测、推理和决策,使之服务于国计民生的方方面面。
异构空间网络关联事件的分析与协同监控对于维护社会稳定和国家安全有着重要意义,其可揭示事件在多维空间中信息传播交互规律,并创立热点事件监控理论和支撑技术平台以满足国家保障公共安全和构建智能城市的重大应用需求。
随着电子设备与互联网的快速发展,复杂异构的多种空间中每时每刻都在产生大量的事件多模态数据。这些多模态数据不仅形成复杂的关联关系和组织结构,还表现在不同模态数据跨越媒介或平台(数据源)高度交叉融合。只有对这些多模态多媒体数据进行主动认知和智能推理,才能尽可能全面、正确地理解这种跨媒体综合体所蕴含的内容信息。由于异构空间的事件数据具有数据量大、多模态、语义抽象、非结构化等特点,异构网络空间关联事件分析与协同监控的一个重要研究方向是结合网络空间信息的综合性、便捷性和物理空间的本地性进行事件的智能理解与应用。因此,如何结合社会科学与认知科学的最新进展,对异构空间大数据进行协同感知,如何在多模态的数据上对复杂事件进行检测、跟踪,如何构建面向异构空间的知识表示模型从而对关键事件进行协同关联与演化分析,将会是未来研究的工作重点。例如,对社会热点事件在物理和网络空间进行信息融合和建模,并将该事件在物理和网络二元空间的详细演变过程进行表示,通过对这些信息的关联分析,挖掘该社会事件的主题和舆论导向,并预测其后续发展轨迹,揭示传播行为特性,为事件监控和舆情分析提供技术保障。
7. 神经活动模式分析
神经活动是生物感知外部环境、产生知觉、进而采取行动的生理基础。神经活动模式分析需要在获取神经活动数据的基础上,使用模式识别方法探索数据背后的神经活动机制,并且挖掘神经活动的内在规律以及神经活动与外部刺激、知觉状态、运动意图等之间的关系。
神经系统能够高效地整合既有知识,进行逻辑推理并且快速适应复杂环境。通过编码研究可以对神经活动模式进行解析和预测,有助于类脑模型的研究;另外,通过神经解码模型可以对使用者的认知状态和运动意图进行解码,以形成智能化辅助产品,可以帮助残疾人提升生活质量。
然而,神经活动模式分析还面临以下几个方面的问题:首先,神经信号往往是对神经活动的间接表示,难以反推出精确的神经活动;其次,受到实验条件的限制,神经活动数据具有特征数量大而样本数量少的特点,会大大降低编解码模型的鲁棒性;最后,神经活动属于非线性时变过程,动态性高,并且个体差异性大,难以获得稳定、可泛化的计算模型。
针对以上挑战,神经活动模式分析需要一系列行之有效的解决方法,来综合提升模型的有效性和准确性。针对神经信号难以直接测量和描述的问题,需要采用多种知觉、神经信号的同步采集方法,并对其进行联合分析来提升神经活动描述和估计的准确性。针对样本缺乏的问题,需要在神经活动特征提取的基础上,适当地采用生成式模型和迁移学习等方法进行数据扩充,以增加样本的数据量和多样性。针对神经活动信号复杂的问题,需要研发具有类脑计算机制的编解码模型,从神经计算的角度理解并开发动态计算模型、以适应不同特征的分布。同时,细粒度的脑区功能划分也将是理解大脑计算机制的重要研究方向。
*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。