欢迎光临散文网 会员登陆 & 注册

权威发布|模式识别应用技术重要研究进展(二)

2020-10-22 14:59 作者:深蓝学院  | 我要投稿

模式识别应用技术具体研究进展主要表现在如下几个方面:面部生物特征识别、手部生物特征识别、行为生物特征识别、声纹生物特征识别、文字与文本识别、复杂文档版面分析、多媒体数据分析、多模态情感计算、图像和视频合成、图像取证与安全、遥感图像分析、医学图像分析等。接下来着重介绍,本次分享其中后项。 

前六项传送门:模式识别应用技术重要研究进展(二)

干货太多,请自带水杯~^-^ 

以下为报告正文部分

7. 医学图像分析

医学影像分析(Medical Image Analysis)属于多学科交叉的综合研究领域,涉及医学影像、数据建模、数字图像处理与分析、人工智能和数值算法等多个学科。医学图像中的模式识别问题,主要指将模式识别与图像处理技术应用在医学影像上,并结合临床数据加以综合分析,最终目的是找到与特定疾病相关的影像学生物指标,从而达到辅助医生早期诊断,辅助治疗和预后评估。医学图像分析主要包括医学图像分割、图像配准、图像融合、三维重建与可视化,脑功能与网络分析、计算机辅助诊断等。下面主要介绍医学图像分割、配准融合以及计算机辅助诊断方面的重要进展。

医学图像分割:医学图像分割是医学图像分析中典型的任务,是医学图像分析的基础,它本质上是像素级别的分类,即判断图片上每一个像素的所属类别。一般的流程分为数据预处理、感兴趣区域提取、分割、分割结果后处理等。传统图像分割方法包括阈值分割、区域增长、形变模型、水平集方法、多图谱引导的分割方法等。随着全卷积神经网络(FCN) 和U-Net网络等深度学习算法的提出,深度学习在医学图像分割领域的应用快速发展。FCN采用端到端的学习模式实现了输出图像区域分割,保证了对任意尺寸的图像都能进行处理,但其在医学图像上得到的分割结果相对粗糙。U-Net网络结构更适用于医学图像,并且针对小样本的医学图像数据也取得了较好的分割结果,后续的改进模型引入了残差结构和循环结构,并且与多尺度特征融合、注意力机制等技术相结合,进一步提升了分割的效果。

医学图像配准和融合:在临床应用中,单一模态的图像往往不能提供医生所需要的足够信息,常需将多种模式或同一模式的多次成像通过配准融合来实现感兴趣区的信息互补。医学图像的配准大部分情况下指对于在不同时间或不同条件下获取的两幅图像,基于一个相似性测度寻求一种或一系列空间变换关系,使得两幅待配准图像间的相似性测度达到最大。医学图像配准包括被试个体内配准、被试组间配准、二维-三维配准等多个应用场景。医学图像配准的经典方法包括基于互信息的配准、自由形变模型配准、基于Demons的形变配准(DEMONS)、基于层次属性的弹性配准(HAMMER)、大形变微分同胚度量映射(LDDMM)等。几年来,基于深度学习的配准方法得到了领域内的重视,深度学习应用在配准上主要采取以下两种策略,1)用深度神经网络来预测两幅图像的相似度,2)直接用深度回归网络来预测形变参数。

计算机辅助诊断:结合计算机图像处理技术以及其他可能的生理、生化手段,辅助发现病灶和特异性变化,提高诊断的准确率。其一般流程是对图像进行预处理,然后通过手工特征或者特征学习方法对整张图像进行全局扫描,然后训练模型,判断图片中是否存在病变,并对疾病进行分类。随着深度学习的发展,尤其是卷积神经网络CNN的提出,Alexnet、VGG、Resnet等网络在图像分类领域取得了优异的结果,其思想是通过有监督或无监督的方式学习层次化的特征表达,来对物体进行从底层到高层的特征描述。如何设计网络,提取图片或者特定的区域的有效的特征,提高分类精度是目前主要研究的问题。例如:DeepMind公司利用深度学习开发了一套眼睛OCT诊断系统,其准确度和世界一流专家相当。斯坦福大学的研究者发布了一系列成功的研究案例,如诊断皮肤癌的算法,准确率高达91%,与人类医生的表现相同;开发了一种新的深度学习算法,可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音,堪比心脏科医生。国内自动化所研究团队基于多中心大样本的精神分裂症神经影像、多组学数据库,利用了数据建模与机器学习技术,首次发现并从多方面验证了纹状体环路功能异常是精神分裂症精准诊疗的有效生物标记,该标记可以精准地从健康人群中筛查出精神分裂症患者,并预测患者未来的抗精神病药物治疗效果。另外,最近在形势紧急的新冠疫情中,国内多家研究机构分别使用了多种深度网络对数据进行分析,不仅能够对肺部病灶进行快速分割,还可基于CT影像对新冠患者进行快速诊断。澳门科技大学医学院联合清华大学、中山大学等团队合作研发了“面向新冠肺炎的全诊疗流程的智慧筛查、诊断与预测系统”,可以根据胸部的CT影像,对大量疑似病例进行快速筛查、辅助诊断和住院临床分级预警,实现对COVID-19病人的全生命周期管理。这些成果进一步验证了智能医学影像计算在计算机辅助诊断中的应用潜力。

8. 文字与文本识别

人类社会生活和互联网上存在大量的文字和文档图像(把文字和文档通过扫描或拍照变成图像)。把图像中的文字检测识别出来,转化为电子文本,是计算机文字处理和语言理解的需要。这个过程称为文档图像识别,简称文档识别或文字识别,或称为光学字符识别(OCR)。广义的文字识别是指从文档图像中定位并识别出其中的多种文字内容(文本、符号、公式、表格等);狭义的文字识别指单个文字(在版面简单的文档中容易分割出来)的识别。复杂版面和复杂背景文档图像中的图文分割和文本定位也有大量的技术问题,将另外介绍。这里主要介绍单个文字和文本行(或称字符串)识别的进展。

文字识别作为模式识别领域的一个研究方向,是在电子计算机出现之后,在20世纪50年代以后发展起来的。早期文字识别的对象主要是印刷体数字和英文字母,方法以统计模式识别和特征匹配为主。后来开始手写数字、字母和印刷体汉字、手写体汉字识别的研究,研究中形状归一化、特征提取、分类器等技术受到高度重视。80-90年代也提出了一些结构分析方法,并且字符切分、字符串识别和版面分析受到重视。21世纪以来,文档分析和识别的各个方面技术继续发展,性能持续提高;尤其是近年来,互联网大数据、GPU并行计算支撑深度学习(深度神经网络)快速发展,文档分析和识别中基于深度学习的方法带来性能快速提升,全面超越传统方法,甚至在手写字符识别等方面的精度超过人类水平。

单字识别作为一个分类问题,其方法大致可分为三类:统计方法、结构方法、深度学习方法。统计方法中,对文字图像归一化、特征提取、分类三个主要环节都提出了很多有效的方法。归一化是将字符图像变换到标准大小并校正字符形状。形状校正对手写字符尤其重要,典型方法有非线性归一化、伪二维归一化(Pseudo-two-dimensional normalization)方法等。特征提取方法最有代表性的是局部方向(包括笔划轮廓方向、骨架方向、梯度方向)直方图特征,最早在20世纪70年代末提出,80年代在学术界发表。分类器分类设计方面,除了通用的统计分类器、最近邻原型分类器(学习矢量量化)、多层神经网络、支撑向量机等之外,文字识别领域提出了一些专门针对大类别集分类的改进型分类器,如修正二次判别函数(MQDF)、树分类器等。结构方法中,对字符图像骨架化(又称细化)、笔划提取、笔划匹配(主要基于图匹配思想)、部首分割和匹配等方面提出了很多方法,但是至今为止,结构匹配的识别精度还不高,且模型学习困难。以全连接多层感知器(MLP)、卷积神经网络(CNN)等为代表的神经网络模型在90年代起已经开始在文字识别领域得到成功应用,特别是在2013年以后,深度神经网络(主要是深度卷积神经网络CNN)逐渐占据主导地位,通过大数据训练对特征提取和分类器联合学习明显提高了识别精度,目前性能已全面超越传统方法。对于过去认为很难的大类别集(常用字5000类以上)手写汉字识别问题,正确率已可达到97%以上。目前,在训练数据充足的情况下,单字识别问题基本上已得到了很好解决,不再是一个重要的学术问题。

文本行识别比单字识别更有实用价值。由于字符形状、大小、位置、间隔不规则,字符在识别之前难以准确切分,因此字符切分和识别必须同时进行,这也就是文本行识别的过程。上世纪80年代,对日文手写字符串识别、英文词识别、手写数字识别等问题提出了基于过切分和候选切分-识别网格的方法。这种方法至今在中文手写文本行识别中仍具有优势,结合深度学习分类器(主要是CNN),可以得到优异的识别性能。上世纪90年代,基于隐马尔科夫模型(HMM)的方法在英文手写词识别中开始流行。这种方法的好处是可以在词标注(无需给出每个字的位置)的样本集上进行弱监督学习。后来(2006年之后),基于长短时记忆(LSTM)递归神经网络 (RNN)和连结时序分类(CTC)解码的RNN+CTC模型在英文和阿拉伯文手写识别中性能超越HMM,逐渐成为手写词识别和文本行识别的主导方法。此外,受到机器翻译及自然语言处理领域中提出的注意力(Attention)序列解码机制的启发,注意力模型也被广泛应用到文本行识别领域之中。近年来,结合CNN(用于图像特征学习)的RNN+CTC模型及RNN+Attention模型用于场景文本识别和手写文本识别都取得了领先的性能。基于滑动窗CNN分类的方法(包括CNN+CTC、CNN+Attention)在多语言(包括中文)文本行识别中都比较有效。

文字识别方法研究是模式识别领域的重要部分,一些成果启发了模式分类和计算机视觉等方向的研究,比如文字识别领域在20世纪80年代提出的梯度方向直方图特征在2000年以后被广泛用于计算机视觉领域,改名叫HOG。文字识别技术已在很多社会和商业领域取得成功应用。传统应用场景包括印刷文档数字化、古籍(历史文档)数字化、邮政分拣、票据识别、车牌识别、卡证识别、联机手写文字识别(主要是单字识别)等。过去脱机手写字符识别的成功应用不多,近年来,手写文本识别技术开始进入实用。各种票据的识别开始推广,除了扫描图像,拍照文档(包括票据、卡证等)越来越多。手写作业及试卷手写文字识别、法律文档和档案识别开始推广。相关方法的研究还在继续,以不断提高应用系统的性能。研究方向主要包括:小样本学习、输出置信度和可解释性、多语言文本识别、交互式文本识别。

9. 复杂文档版面分析

文档图像识别中,文档图像的处理和分割非常关键,因为文字和文本行被识别之前,先要在文档中定位并被分割出来。对文档图像中的文本和图形(插图、表格、公式、签名、印章等)区域进行分割并分析不同区域之间的关系,是版面分析的主要任务。几何版面分析是对图文区域进行定位和分割;逻辑版面分析则还要标出不同区域之间的逻辑或语义关系(如阅读顺序)。版面分析的技术挑战主要来自三个方面:低质图像、复杂版面、复杂背景。上世纪80年代以来,对文档图像预处理、版面分割、复杂背景图像文本检测方面提出了很多有效的方法,取得了巨大进展,从而推动了文字和文档识别技术的成功应用。

图像预处理方面的技术包括二值化(文本与背景分离)、图像增强、旋转校正、畸变校正等。早期提出的Otsu二值化方法至今仍被广泛使用。对于噪声图像的二值化,提出了很多从简单到复杂的方法,如局部二值化及系列扩展,用马尔科夫随机场、条件随机场、深度神经网络(如全卷积网络)直接对象素进行分类,等等。为了校正旋转的文档图像,对旋转方向估计提出了投影分析、Hough变换、纹理分析等方法。手持相机拍照文档图像的畸变、光照不均等问题比较突出,对这些畸变和光照的校正提出了一系列基于几何分析(如三维几何)和图像变换矫正方法。

版面分析方法可分为三类:自上而下、自下而上和混合方法。自上而下的方法把图像从大到小进行划分,直到每个区域对应某一类对象(如文本、图形)。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法从图像基本单元(像素、连通成分)从小到大聚合为文本行和区域,对图像旋转、变形、不规则区域等具有更强的适应能力。比如手写文档中,手写文本行有倾斜、弯曲,行之间挨得近,用投影法就很难分开,需用自下而上的聚类方法进行分割。经典的自下而上方法如Smearing、DocStrum(文档谱)、Voronoi图、纹理分析、聚类方法等。用条件随机场对连通成分进行分类,可以分割复杂版面的文档,除了图文区域分割,还可区分印刷和手写文字。对于比较复杂的图像,比如复杂背景或噪声严重干扰的图像,很难用传统二值化去掉背景,近年来提出了基于图模型(例如条件随机场、图卷积)进行版面分析及理解、基于全卷积神经网络通过像素分类来区分背景和前景、分割文本、图形等区域的新方法。混合方法结合自下而上和自上而下的方法,如在自下而上聚合过程中引入先验知识和规则、对聚合结果进行后处理等。可以看出,最近提出的图模型和全卷积神经网络方法具有很强的从数据学习的能力,因而适应不同风格的文档产生更好的分割性能。

场景文本检测可以看成一个特殊的版面分析问题,由于其技术挑战性和巨大的应用需求,最近10年成为研究热点,取得了很大进展。相关方法也可分为自下而上和自上而下、以及自上而下和自下而上相结合的方法。自下而上的方法基于文字或连通成分检测,然后聚合成文本行,典型的如SegLink。自上而下的方法用类似物体检测(Object Detection)直接回归文本行位置,给出文本行的边界框,典型方法如EAST等。但针对任意方向文本行和长宽比,需要设计特殊的模型和学习方法,如直接回归方法。最近对形状弯曲的所谓任意形状文本检测吸引了很多研究,典型的方法如TextSnake、自适应区域表示等。在场景文本检测基础上,文本行(或词)识别方法与普通印刷或手写文本行识别类似。也有些方法(如CRNN+CTC)是首先在场景文本识别中提出来的。端到端的场景文本检测与识别是目前的研究热点之一。

文档版面分析技术的发展推动了文档识别技术的成功应用。随着数码相机和智能手机的普及,拍照文档越来越多,文档类型、图像质量多样化,对版面分析技术的要求越来越高。近年来,各类拍照文档(书籍、档案、文书、票据、卡片、证件、场景文本)的自动处理和识别逐渐开始实用,这得益于版面分析技术和文本识别技术的巨大进步。但是,任意复杂结构、低质图像文档的版面分割与理解及内容识别仍是有待解决的问题。

10. 多媒体数据分析

随着网络通信、数字电子设备、计算机技术的快速进步,信息社会已进入多媒体大数据时代。由于多媒体数据的固有属性是异构及多模态性,因此使用传统方法处理这些复杂数据是不可行的。多媒体数据分析旨在解决多媒体数据的操纵、管理、挖掘、理解的问题,同时以高效的方式对不同模态的异构数据进行智能感知,从而服务于实际应用。目前,多媒体数据的主要存在形式之一是社会多媒体。作为新一代信息资源,社会多媒体数据除传统的文字信息外,还包含了具有表现力强、蕴含信息量大、形象生动等特点的图像、音频和视频等媒体。这些不同的媒体数据在形式上多源异构,语义上相互关联。

多媒体数据分析技术主要包括多模态表示学习,模态间映射、对齐、融合和协同学习等。其中,多模态表示学习的主要目标是将多模态数据所蕴含的语义信息数值化为实值向量。其主要研究进展包括多模态哈希编码、多模态字典学习、多模态稀疏表达、基于深度学习的视觉-语义嵌入及大规模多模态数据表示学习等。模态间映射主要研究如何将某一特定模态数据中的信息映射至另一模态。其主要进展包括基于注意力机制和上下文关系建模的图像与视频标注方法。Liu等人提出了VisualBERT,其借助自注意力机制把一段输入文本中的元素和一张相关的输入图像中的区域映射到语义空间内并隐式地关联起来。对齐主要研究如何识别不同模态间部件、元素的对应关系。主要进展是使用嵌入子空间的特征方法以增强模态内数据的相关性和语义相关数据的关联。融合主要研究如何整合不同模态间模型与特征。主要进展是基于条件随机场、主题模型、多视角学习和弱监督方式的融合方法。协同学习主要研究如何将富集的模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。主要进展是跨模态知识迁移网络方法。Huang等人提出了一种跨模态知识迁移网络,将跨模态数据转换为共同表示用于检索,其中模态共享迁移子网络利用源域和目标域的模式作为桥梁,将知识同时迁移到两种模态。社会多媒体计算作为多媒体数据分析的主要应用点之一,其通常以用户为中心进行建模。主要研究进展包括基于排序的多关联因子分析模型、基于关联隐SVM模型的用户属性的协同推断、多模态的主题敏感的影响分析方法、基于协同过滤的内容推荐算法等。Chen等人提出了注意力机制协同过滤内容推荐算法,通过设计元件级的注意力模块来从多媒体实例中提取富信息的元件,设计物品级的注意力模块来为不同的物品进行偏好打分,从而显著提升了当前最先进的协同过滤推荐算法。

多媒体数据分析是一个充满活力的多学科交叉领域,具有广泛的影响。多媒体数据分析是实现跨媒体智能的重要手段,进而可以高效应对现实世界中对象复杂性、数据规模化、应用需求多样化等挑战。多媒体数据分析的应用包含有多媒体数据的聚类、索引和内容摘要等方向。例如,多媒体数据的内容摘要不同于传统的在单模态上的内容摘要方法,需要融合丰富的多媒体数据。此外,多模态无监督深度表征学习也是最近的研究热点,其训练不依赖任何标签,通过对多模态数据内在特征的挖掘,找到其间的关系从而学习到高效的特征表示。目前在一些任务上多模态无监督深度表征学习已经接近了有监督训练的性能。在社会多媒体计算方面,社会多媒体内容理解可以通过对多媒体数据进行语义分析和关联建模以实现对社会事件的分析、检测、关联、预测及决策。其主要应用领域包括内容监测、态势分析、智能医疗、智慧城市等。

11. 多模态情感计算

所谓“模态”,英文是modality,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等。多模态信息之间具有互补和增强作用,这与大脑通过多种来源的信息感知外在事物是一致的,不同感官会被无意识地自动结合在一起对信息进行处理,任何感官信息的缺乏或不准确,都将导致大脑对外界信息的理解产生偏差。情感是人类智能的重要组成部分,情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能。多模态情感计算是指融合多种模态信息包括但不限于音频、视频、文本和生理信号等模态进行情感识别、解释、处理和模拟,促进和谐的人机交互。

有关情感计算的论述可以追述到二十世纪末的James Russell。1970年,人工智能创始人之一,计算机图灵奖获得者,美国麻省理工学院的Minsky教授在《脑智社会》专著中就情感的重要性专门指出“问题不在于智能机器能否有情感,而在于没有情感的机器能否实现智能”。1997年,MIT的Rosalind Picard在她的专著中首次提出“情感计算”的概念。之后,情感计算引入机器学习方法进行分析,将情感分类分为不同的情感类别进行识别,并且从不同的情感维度(愉悦度和激活度)上表示情感的正负向性和情感程度来量化情感,从而将情感分析建模为一个模式识别问题。因此,不同的机器学习方法都被应用到了情感计算中,如传统的支持向量机、随机森林、隐马尔科夫模型以及基于事件评价的情感模型等等。近来,随着深度学习的广泛应用,深度神经网络也被成功地应用到了情感计算中。由于情感的时序特性,递归神经网络能够取得相较于其他网络更好的效果。

人类具备多种情感表达方式,并且不同表现方式在表达情感信息时存在一定的互补作用。因此,相比于单模态情感识别,多模态情感识别更加完整,更加符合人类自然的行为表达方式。多模态情感分析的难点在于如何有效融合多模态信息,利用模态间的互补性,提升情感分析的能力。1997 年,Duc 等人最先提出“多模态”(Multi-modal)的概念。Pradeep 总结了多模态情感融合的三种基本模式,包括特征层融合、决策层融合和模型层融合。特征层融合在前期融合不同模态的特征,简单有效但忽略了不同模态特征之间的差异性,同时该融合策略很难表示不同模态之间的时间同步性,并且融合后特征维度太大,容易造成信息冗余甚至引发“维数灾难”;决策层融合在后期综合不同模态的预测,考虑到了不同模态特征的差异性,但决策层融合没有考虑到情感特征之间的联系,不能充分利用不同模态特征所蕴含的类别信息,忽略了不同模态信息的本质相关性;模型层融合依据于不同模型的内在结构进行建模,并且利用深度学习方法获得了更好的效果,是目前研究的热点。模型层融合的另一种思路是多模态特征学习,利用深度学习网络提取不同模态信息中的情感共性部分而去除干扰部分,学习各个模态(如音频、视频和文本)之间的交互信息,得到鲁棒的多模态情感特征表征。这方面的研究是多模态情感分析的热点,吸引了许多研究。如Zadeh 提出Tensor融合,将不同模态编码到高层表征然后两两模态之间内积拼接得到最终的多模态表征。

基于多模态融合的情感计算受到学术界和工业界的广泛关注。1998年,美国伊利诺伊大学和日本 ART 研究院的研究工作者 Chen,Huang和Miyasato等人共同提出了基于表情和语音的双模态情感识别框架。2006年,悉尼科技大学的研究工作者Gunes和Piccard等人建立了基于表情和姿态的情感数据库,并在该数据库上进行融合表情和姿态的情感识别实验。2010年,东南大学的研究工作者Huang和Jin等人考虑到脑电信号可以充分反映人的生理和心理变化,提出了采用特征融合和决策融合算法实现语音信号和脑电信号的多模态情感识别。2015年,注意力机制首次被引入到多模态情感识别领域,该机制能够考虑到不同模态对于情感计算的差异贡献性,并且学习在不同时刻动态地改变各个模态的权重。

多模态情感计算能够极大地增加情感分析的准确性,强化人机交互的自然度、类人度以及温度。针对多模态情感计算的研究,能够同时促进模态信息融合、以认知科学为基础的视听觉计算等相关领域的研究。同时,多模态情感计算在智能客服、疲劳监测、智能教育、智能医疗等领域有着广泛地应用。例如,利用多模态情感计算技术,能够判断人的情感变化和心理压力的变化,来侦测人们的一些行为或会话过程中,可能出现的一些心理和精神的异常点,为医生做诊断提供辅助。

12. 图像取证与安全

以图像为代表的视觉大数据作为客观信息记录的重要载体,在日常生活中被广泛应用,然而随着图像视频编辑技术、特别是深度生成对抗和伪造技术等的快速发展,图像视频极易成为被恶意篡改伪造的对象,在互联网和智能手机上广泛且快速传播,对网络安全和媒体公信力造成巨大威胁。在眼见不为实的背景下,视觉取证技术应运而生,其目的是有效鉴别图像视频数据的真实性、追溯可疑图像视频来源。不同于主动式的图像水印、数字签名技术,图像视频取证技术采用被动方式,仅从数据本身抽取可用线索,最终辨别图像视频的真实性。

虽然图像篡改伪造问题早在19世纪照相机发明不久之后就已出现,作为一个科学问题被广泛研究的图像视频取证起源于2000年,是一个相对较新的研究领域。早期的图像取证方法受自然图像统计模型的启发,关注篡改图像或计算机合成图像不同于真实图像的统计特征。由于假图像与真图像在视觉上很难区分,研究者多从高频噪声层面设计手工特征,如噪声的高阶矩特征、小波域特征、马尔科夫转移矩阵特征、邻域像素共生矩阵特征等。该研究思路下取证问题与图像隐写分析问题非常相似,这些手工特征的设计很多借鉴自发展较为成熟的图像隐写分析领域。随着研究深入,用于图像视频取证的特征维度越来越高,同时分类器也经由了简单线性分类器发展到核分类器、集成分类器再到近年来流行的深度学习网络。

与基于统计模型的取证研究同时发展的另一种取证方法是多线索取证。此类方法通过发掘各成像环节中成像模型与成像规律被篡改行为破坏的线索来揭示篡改。各种类型的多线索取证方法共同构成有效的取证工具集,主要包括相机模式噪声取证、Color Filter Array (彩色过滤器阵列,简称CFA)插值算法取证、JPEG压缩规律取证、场景光照一致性取证、场景几何约束取证、、图像操作取证等。各类方法的设计从特定成像环节的数学模型出发,旨在通过建模来还原篡改行为对正常模型的破坏痕迹。此外,基于计算机视觉中的成熟技术,有研究者提出对篡改图像中复制粘贴同源区域进行配准定位;以及基于检索与匹配技术从海量图像中重建篡改图像来源和篡改过程的取证溯源技术。

深度学习技术的发展,特别是深度伪造技术的出现,对视觉取证领域也带来了深远的影响。不同于一般计算机视觉任务,图像取证深度模型一般在图像噪声域设计,目的是增强包含篡改痕迹的高频微小信号。近两年不断有新的深度模型被提出,研究者在模型的层数、架构、损失设计、图像滤波层以及各种训练技巧上进行了大量尝试。最新的深度取证模型在标准数据库上已经能够超越传统统计模型的预测性能,然而此类取证方法仍然面临实际场景中图像压缩、图像质量造成的不利影响以及深度取证方法本身可解释性弱的问题。

图像取证研究在内容安全方面有着巨大应用需求,对于互联网虚假媒体检测、司法鉴定、保险反欺诈等都有实际应用场景。“华南虎”、“广场鸽”、“AI换脸”等事件中,图像取证技术都发挥了重要作用。微软公司与取证研究专家合作开发的敏感图像内容指纹比对技术已大规模应用于各大图像分享平台。随着智能伪造技术的快速发展,其危害日益严重,取证技术势必在内容安全应用中发挥越来越大的作用。


*本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。

权威发布|模式识别应用技术重要研究进展(二)的评论 (共 条)

分享到微博请遵守国家法律