欢迎光临散文网 会员登陆 & 注册

权威整理|模式识别基础重要研究进展(二)

2020-10-21 16:24 作者:深蓝学院  | 我要投稿
本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。

前天已发布了以下13项理论方法的前六项,本篇发布7-13项内容。

前六项内容传送门:https://www.bilibili.com/read/cv8017817

全文大纲

本文选出以下13项理论方法或任务作为过去历史上模式识别领域基础理论方法的重要成就

1. 贝叶斯决策与估计:统计决策的基础理论。

2. 概率密度估计:一类重要的无监督学习方法,统计模式识别的重要基础,模式分析的重要工具。

3. 分类器设计:模式识别系统实现中最重要的任务,有多种模型设计和学习方法,这里主要介绍监督学习。

4. 聚类:一类重要的无监督学习方法,模式分析的重要工具。

5. 特征提取与学习:模式的特征表示对模式分类的性能有决定性影响,如何从数据提取特征、选择特征或学习特征表示是一个重要的研究方向。

6. 人工神经网络与深度学习:人工神经网络是一类重要的模式分析和识别方法,发展到深度神经网络形成了目前最成功的深度学习系列方法和研究方向。

7. 核方法与支持向量机:以支持向量机为主的核方法在20世纪90年代成为模式识别的一个主流方向,至今仍在模式识别研究和应用中发挥重要作用。

8. 句法结构模式识别:基于句法或结构分析的模式识别方法一直以来是与统计模式识别并列的一个重要分支。

9. 概率图模型:概率图模型是一类重要的模式结构分析或结构化预测方法,因为其区别于其他结构模式识别方法的独特性,对其单独介绍。

10. 集成学习:集成学习通过融合多个学习器来提升性能, 在20世纪80年代以来已有大量研究和应用,形成了系统的理论和系列方法。

11. 半监督学习:半监督学习是20世纪90年代以来发展起来的一类可同时利用标记样本和无标记样本的分类器学习方法,至今仍有大量研究。

12. 迁移学习:迁移学习利用不同领域或不同分布特性的样本数据来优化分类器模型,受到了广泛重视,发展了一系列模型和方法。

13. 多任务学习:多任务学习利用多个分类或建模任务(包括聚类、回归、数据重构等)的相关性,同时学习多个任务,可提升每个任务的泛化性能,得到了广泛重视和应用。

以下为正文部分,全文共计一万余字,建议保存收藏阅读~

喜欢我们分享的文章别忘记收藏点赞,给我们更新的动力~^-^



7. 核方法与支持向量机

核方法是解决线性不可分模式分析问题的一种有效途径,其核心思想是:首先,通过某种非线性映射将原始数据嵌入到合适的高维特征空间;然后,利用通用的线性学习器在这个新的空间中分析和处理模式。相对于使用通用非线性学习器直接在原始数据上进行分析的范式,核方法有明显的优势:首先,通用非线性学习器不便反应具体应用问题的特性,而核方法的非线性映射由于面向具体应用问题设计而便于集成问题相关的先验知识。再者,线性学习器相对于非线性学习器有更好的过拟合控制从而可以更好地保证泛化性能。还有,很重要的一点是核方法还是实现高效计算的途径,它能利用核函数将非线性映射隐含在线性学习器中进行同步计算,使得计算复杂度与高维特征空间的维数无关。在可再生核希尔伯特空间中,核技巧解决了显式特征映射方法中存在的计算代价大和计算复杂度高的缺点,有效地避免了维数灾难的问题。Mercer定理的建立为核技巧的实施提供了理论支撑。著名的核方法包括核感知机、核支持向量机、核主成分分析、核判别分析、高斯过程等。随后,核岭回归、核典型相关分析、核偏最小二乘分析、谱聚类核化、核矩阵学习、核贝叶斯推断等相继得到发展。核学习方法成为推动模式分类、聚类、特征提取等非线性化发展的主要技术途径。另外,借助于核主成分分析方法,人们建立了关于线性模式分类方法核化的一般性理论,发展了多核学习的算法体系。核方法在生物特征识别、数据挖掘、生物信息学等领域得到广泛应用。

核方法的最典型应用是支持向量机模型。支持向量机以统计学习理论的VC维理论和结构风险最小原理为基础,目标是基于有限的样本信息学习分类模型,该模型能在复杂性和泛化能力寻求最佳折中。具体说,支持向量机可以看作是一个二类分类模型,其求解目标是在确定一个分类超平面使得间隔(所有样本与分类超平面之间距离的最小值)最大。通过将支持向量机的原问题转化为对偶问题,支持向量机的学习核心从间隔最大化的学习问题转化为支持向量的学习问题。其中,支持向量指的是最终用于确定分类器参数的向量。另一方面,基于对偶问题,可以明确地看出不同支持向量机的核心体现在核矩阵(或者对应核函数)的构造。基于精心构造(或通过多核学习得到)的核函数,可以有效地处理数据的非线性难题。同时,通过核函数,可以在高维特征空间中,甚至无限维特征空间中实现分类问题。此外,支持向量机使用铰链(合页)损失函数(hinge loss)计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。支持向量机可以通过核方法进行非线性分类,是常见的核学习方法之一。支持向量机的理论基础被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在图像识别、文本分类等模式识别问题中得到广泛应用。

核方法还被广泛应用在其它模式识别和机器学习问题中。如将传统的线性特征提取算法通过核函数来实现非线性化的扩展,具体包括:核主成份分析(KPCA)、核线性判别分析(KLDA)、核最小二乘、核典型相关分析、核独立成份分析(KICA)等。在核学习的理论方面也取得了重要进展,比如人们发现线性方法的核化与KPCA之间的内在联系。同时,建立了多核学习与核选择方法。核函数与聚类相结合,如核K均值算法(Kernel K-means),显著提升了传统聚类算法的非线性表达能力。另外,在概率密度估计中核函数也得到了广泛的应用,是典型的非参数估计方法之一,比如基于RBF核以及Parzen窗的概率密度估计方法等。最后,在结构模式识别中,核函数也得到了广泛的应用。结构模式识别处理的对象不是固定维度的向量而是结构化的数据(如图或串等),因此诸如序列串匹配核(String Kernel),图匹配核(Graph Kernel)等被广泛用来提升结构模式识别问题的学习能力。高斯过程也可以看做是在贝叶斯学习中融合了核函数的优点。

8. 句法结构模式识别

句法模式识别(Syntactic Pattern Recognition)是由美籍华裔科学家傅京孙(King Sun Fu)教授于1970年代中期在形式语言理论的基础上所建立的。句法模式识别经常与结构模式识别(Structural Pattern Recognition)在用词上互换,合称句法结构模式识别,或者单称句法模式识别或结构模式识别。

结构模式识别(Structural Pattern Recognition)是处理结构数据的一类模式识别方法。现实问题中,模式对象经常包含丰富且重要的结构信息,例如:一个文字中的笔划及其相互关系,一个物体的部件及其相互关系。结构模式识别方法将模式表示为一组基元的组合并对基元之间的相互关系进行描述,在此表示的基础上,通过对模式进行结构解析进行识别。相对而言,统计模式识别方法一般用特征矢量来描述模式,基于概率决策理论划分特征空间进行模式分类,因而往往忽略模式的内在结构。结构模式识别对结构的分析与理解类似人脑的模式识别方式,具有更好的泛化性能(不需要大量样本训练)。

常见的结构模式识别任务包括:结构数据的分类、匹配、结构化预测等。而根据方法的特点,结构模式识别方法可以大致分为三类:句法模式识别;结构匹配;融合结构与统计的方法。

句法模式识别的基本原则是,如果一类模式的样本能用一个文法(一组句法规则)来描述,则可以通过句法解析(Parsing)来识别这类模式:如果解析的结果表明,模式基元组合能为给定的句法规则所产生,则可判别该模式属于该类,否则就不属于该类。另一方面,从模式样本推导出一类文法的过程称为文法推断(Grammatical Inference)。学术界对模式的文法表示、句法解析、文法推断方面提出了一系列方法和算法。在文法表示方面,短语结构文法,如上下文敏感文法、上下文无关文法、正则文法等,常用来对串模式进行表示。高维文法,如树文法、图文法等,可以对高维模式(如二维和三维图形)进行描述。其中,60年代提出的用于图形分析的图像描述语言(Picture Description Language)产生了长远影响。句法解析一般针对不同类型的文法提出不同的方法,如针对上下文无关文法的Cocke-Yonger-Kasami (CYK)解析方法。文法推断方法也依赖于具体的文法类型,且算法大多很复杂。实际中,很多文法是专家针对具体问题人工设计得到的。

结构匹配是结构模式识别中的基本问题,其基本任务是计算两个待比较的模式之间的相似度(或距离),同时给出基元之间的对应关系。根据模式结构的不同,结构匹配可以分为串匹配和图匹配。串匹配要求在某个字符串中找出与待查找字符串相同的所有子串。经典算法包括:Knuth-Morris-Pratt算法,Boyer–Moore算法等。但现实问题中往往包含噪声和形变,因此允许误差的近似匹配方法更为常用。近似串匹配一般以编辑距离度量误差,通过动态规划算法寻找最优匹配路径。近似串匹配广泛应用于字符识别,语音识别,形状匹配等问题中。图匹配也分为精确图匹配和近似图匹配。精确图匹配也称图同构或子图同构问题,可用带回溯的树搜索算法实现,但复杂度高,目前尚没有多项式级算法。非精确匹配因为引入了误差或距离度量,可以采用启发式搜索,其好处是灵活、直观,但复杂度高,不能保证是低于NP的。谱方法和基于松弛(relaxation)的匹配方法复杂度较低(一般介于O(n3)和O(n4)之间,n为图的节点数),但不能保证全局最优。70年代以来,图匹配问题一直是模式识别领域的研究热点之一,提出了大量的方法和算法,包括各种提高优化效率的算法和自动估计距离度量参数的方法等。对于大规模图的快速准确匹配仍然是有待解决的问题。但是,已有的图匹配方法已在模式识别(如图形识别、文字识别)、计算机视觉(如三维视觉)、网络信息检索等领域得到了广泛应用。

经典的句法模式识别方法和结构匹配方法中通常不包含可学习参数,对基元的特征属性也缺乏有效的描述手段。实际中,这些方法通常会与统计方法相结合,以增强方法的灵活性和鲁棒性。例如,文法与概率结合,构成随机文法,已经被成功应用于场景图像理解等领域。核函数(Edit Distance Based Kernel, Graph Kernel)、递归神经网络、图神经网络可以把结构模式映射到向量空间,从而在向量空间采用统计模式识别的方法进行匹配。

结构化预测(Structured Output Prediction)是另一类重要的结构模式识别问题,其任务是对相关的多个模式或基元同时进行分类。典型的例子是对手写字符串中所有字符同时分类、图像中多个目标和背景区域同时分类。该类方法通常为融合结构和统计的混合方法,常用的方法包括概率图模型(如:隐马尔科夫模型、马尔科夫随机场、条件随机场)、结构化支持向量机,神经网络(如:递归神经网络,图神经网络)等。这些方法在语音识别、指纹识别、图像复原,心电图(ECG)分析、自动驾驶、地震波图分析等领域取得了成功应用。

结构模式识别自上世纪70年代以来,其理论方法得到了巨大发展,相关模型、方法在图形识别、文字识别、语音识别、视觉场景分析、行为识别、信息检索等领域得到广泛应用。其理论方法与统计模式识别、人工神经网络、核方法性能互补、交叉融合并且相互启发,对人工智能领域的知识表示、推理、学习等有很大的参考价值;将统计模式识别与结构模式识别相结合的统一方法也是未来重要的发展方向之一。

9. 概率图模型

概率图模型是将概率论与图论相结合,以图的形式研究多元随机变量概率分布、推理和学习等问题的一类方法;其核心是以图的连接关系为基础,提供一种高效、可视化地表示随机变量之间条件独立性和联合概率分布的手段。

概率图模型理论分为三部分内容:概率图模型的表示理论、推理方法和学习方法。概率图模型的表示理论可以分为结构表示和参数表示,目前已经发展得比较完备。其中,结构表示是概率图模型的基础理论,以D-分隔、Hammersely-Clifford定理等为代表,结构表示理论揭示了联合分布的因子化表示和条件独立性(又称马尔可夫性)的等价性。根据边的性质,概率图模型主要分为有向无环图模型(即贝叶斯网络),无向图模型(即马尔可夫网络或马尔可夫随机场),以及同时包含有向边和无向边的混合图模型。模式识别问题中,常见的无向图模型包括:条件随机场、受限玻尔兹曼机、Ising模型等;常见的有向无环图模型包括:隐马尔可夫模型、混合高斯模型、隐狄利克雷分配等;常见的混合模型包括:深度置信网络等。

概率图模型的推理方法可以分为两类:精确算法和近似算法。通常,精确推理算法只用于链、树等简单图结构的问题中,经典方法包括:变量消去法、信念传播算法、Junction Tree算法等。由于计算复杂度的原因,近似算法在实际中更加常用,现有方法分为两类:基于函数逼近的变分方法,如平均场算法,迭代信念传播算法;和基于随机采样的蒙特卡罗方法,如Importance Sampling, MCMC算法。采样方法通常具有优秀的理论性质,但速度较慢。如在MCMC方法中,当马氏链运行时间趋于无穷时所采样本严格服从真实分布;但如何加快马氏链的收敛一直是MCMC研究中的难题。相反,变分法速度较快,但近似效果在理论和实际中都有缺陷。近年来,为了对更加复杂的概率图模型(如贝叶斯深度学习网络)进行有效推理,传统的推理算法通过与神经网络等方法的结合取得了显著突破,如变分编解码器等方法,不仅克服了对近似分布限制过强的缺陷,在速度上也取得了提升;类似的,MCMC方法也已经充分利用神经网络的特性,发展了更加高效的采样算法。

概率图模型的学习可以分为结构学习和参数学习。一般图结构的学习已被证明是NP-Hard问题,还没有通用的学习算法;现有方法主要基于约束、搜索、动态规划、模型平均、混合策略等。但实际中通常的做法是针对具体问题人工设计图结构,例如,在混合高斯模型和话题模型中使用的混合加性结构,在语音识别、手写字符串识别中使用的链式结构,在图像降噪中使用的网格结构、层次化结构等。对于参数学习,极大化训练数据集上的似然函数是最常见的方式,但通常计算复杂度很高。出于计算效率的考虑,实际中,经常使用其他目标函数对似然函数进行近似,如似然函数的变分下界(Evidence Lower Bound), Piecewise Likelihood,Pseudo Likelihood, Score Matching等。其他常见的参数学习方法还包括矩匹配(Moment-Matching)、对抗训练等。

概率图模型在热力学、统计学领域很早就有深入研究,二十世纪七八十年代,随着隐马尔科夫模型和马尔可夫随机场在语音识别和图像复原问题上的成功应用,概率图模型开始在模式识别和机器学习领域获得关注。如今,概率图模型在计算机视觉、语音识别、自然语言处理、生物信息学,机器人学等方向都有广泛的应用并产生了重大影响。贝叶斯网络的主要提出者Judea Pearl教授还因其在概率图模型和因果推断领域的突出贡献获得了计算机领域的最高荣誉----图灵奖。

10. 集成学习

集成学习是机器学习领域中的重要研究方向,主要研究如何构建并结合多个基学习器来得到一个具有更好泛化性能的强学习器。集成学习因此又被称为多分类系统(Multi-Classifier System)、基于委员会的学习(Committee-Based Learning)等。早期(20世纪80-90年代)关于集成学习的工作主要集中在对多分类器结合策略的研究上。这些结合策略主要包括简单平均法、投票法以及基于学习的结合法。投票法主要包括绝对多数投票法(Majority Voting)、相对多数投票法(Plurlity Voting)、加权投票法(Weighted Voting)和排序投票法(如波达计数法, Borda Count)等。基于学习的结合法通过从数据中学习一种自适应的多分类器结合策略,包括Stacking方法和贝叶斯模型平均(Bayes Model Averaging, BMA)等。此外,对多分类任务来说,将二分类学习器推广到多类的ECOC (Error-Correcting Output Coding,纠错编码)也可视为一种分类器结合策略。

集成学习通常涉及两个相关子问题:基学习器的构建以及基学习器的结合。为得到好的集成结果,在生成基学习器时,要求基学习器具有一定准确性,同时还要具有多样性(diversity)。根据基学习器的生成方式不同,集成学习可分为并行式集成学习和串行式集成学习。Bagging是并行式集成学习的代表性方法。Bagging通过自助采样法对样本集进行扰动来并行构建多个基学习器,最后通过投票法或平均法将生成的基学习器结合起来。Bagging最著名的扩展变体是随机森林(Random Forest)。该方法被誉为“代表集成学习技术水平的方法”。随机森林以决策树为基学习器,在构建决策树时,额外引入属性集扰动来增加基学习器的多样性。串行式集成学习的代表方法是Boosting系列算法。Boosting以串行方式来依次生成基学习器,通过引入并调整样本权重分布,使得在学习基学习器时,算法能更多的关注那些之前被错分的样本。Boosting起源于AdaBoost方法。从统计角度来看,AdaBoost可认为是基于加性模型来分步优化指数损失函数。对于一般形式的损失函数,J. Freidman提出了GradientBoosting方法,其基本思想是基于加性模型并利用梯度下降法来对损失函数进行优化,当基学习器是决策树时就是GBDT算法。该算法的一种高效实现——XGBoost,目前被广泛使用。从偏差-方差分解的角度来看,Boosting主要关注如何降低模型的偏差,而Bagging更多关注如何降低模型的方差。

目前,集成学习已成为一种重要的机器学习思想,被广泛的应用于聚类、分类、回归和半监督学习等几乎所有的学习任务中。深度神经网络训练中广泛采用的Dropout可看作是集成学习思想的一种体现。

集成学习的理论工作已有许多探索,例如AdaBoost起源于计算学习理论中“强可学习性是否等价于弱可学习性”这个重要问题,其雏形本身就是对该理论问题的构造性证明。集成学习也产生了许多重要理论问题,其中最受关注的“AdaBoost为何在训练误差为零后继续训练很长时间仍不发生过拟合”问题最近才通过建立新的间隔理论得到彻底解决。值得注意的是,不同类型的集成学习方法的理论基础仍处于分头探索、目前尚未建立起统一的理论基础,这是一个需要深入研究的方向。另外,在使用大量基学习器进行集成学习后会形成黑箱模型,如何提升集成学习的可解释性也是一个值得深入研究的方向。这一方向相关的研究工作包括将集成转化为单模型、从集成中抽取符号规则以及由此衍生的“二次学习”(twice-learning)技术、集成可视化技术等等。

11. 半监督学习

半监督学习是实现模式识别的重要途径。发展半监督学习方法的目的是为了解决标注样本不足的问题。半监督学习方法同时利用有标记的样本和无标记样本来改善学习器的性能,因此是一种监督学习与无监督学习相结合的学习方法。半监督学习的基本设置是给定一个分布未知的有标记样本集和一个未标记样本集,期望学习一个最优的学习器对数据点的标记进行预测。根据不同的任务目的,半监督学习方法可分为归纳和直推两种类型。通过联合利用标记和无标记样本,归纳型半监督学习方法旨在学得参数化的预测函数,而直推型半监督学习方法旨在完成对无标记样本的标注。

在半监督学习中,由于数据的分布未知,为便于充分利用未标记样本中的信息来建立样本与学习目标之间的关系,人们建立了平滑假设、聚类假设和流形假设。平滑假设认为数据的概率密度函数是平滑的,因此位于稠密数据区域中距离相近的样本点以大概率具有相似的标记。聚类假设认为属于同一聚类簇中的样本以大概率具有相似的标记。对分类问题而言,在该假设下,分类决策边界应尽可能地位于稀疏的数据区域。流形假设认为高维数据嵌入在低维流形中且位于该流形中同一局部邻域内的样本以大概率具有相似的标记。在上述三个假设下,大量的未标记样本会让数据空间变得稠密,从而帮助学习器更好地进行数据拟合。上述三个假设已广泛地应用于学习器的建立之中,形成了半监督分类、半监督聚类、半监督回归等主要研究主题。

半监督分类方法已取得了很大进展,并发展出了众多的方法,主要可分为生成式模型、自训练、直推学习等方法。其中,生成式模型大多属于归纳型半监督分类方法,自训练的思想则在归纳和直推两种类型的半监督分类方法中均得到应用。具体地,在生成式模型方面,最具有代表性的方法包含高斯混合模型、隐马尔可夫模型、非参数密度模型、生成树、高斯过程等。该类方法通过与期望最大化算法相结合,利用无标记样本来改善似然损失,提高判别函数的分类决策能力。自训练方法假定多个不同的学习器同时得到训练,并利用对无标记样本的一致标注来自动地增加训练样本,从而迭代地提升分类器性能,主要包含分类器协同训练方法、对偶协同训练方法、多模态协同训练方法、协同正则化方法、主动学习方法、自学习方法、图协同训练方法、深度协同训练方法、深度蒸馏方法等。在直推学习方法中,最具有代表性的方法是直推支持向量机和基于图的半监督分类方法。直推支持向量机将支持向量机中最大间隔分类器构建思想同时应用于标记样本和无标记样本来提高分类器的泛化能力。基于图的半监督分类方法以标记样本和无标记样本为图的顶点进行图构建,并以流形假设为基础构建学习模型。基于图的半监督分类方法包含马尔可夫随机场、随机游走、高斯随机场半监督分类、流形正则化半监督分类、局部和全局一致性半监督分类、半监督近邻传播方法、局部线性嵌入半监督分类、局部线性回归半监督分类、局部样条回归半监督分类、图正则化核岭回归等方法。其中,图正则化核岭回归能够输出一个参数化的分类判别函数。

与半监督分类方法取得进展的同时,半监督聚类也获得了相应发展。半监督聚类主要通过在现有算法的聚类过程中利用给定的少量监督信息来实现。监督信息一般以样本的类别标签、点对相似或不相似等形式呈现。典型方法包含种子/约束K均值聚类、约束层次聚类、隐马尔可夫随机场半监督聚类、局部线性度量自适应、线束非负矩阵分解、半监督因子分析、主动成对约束聚类、约束距离度量学习聚类、约性约束最大间隔聚类、用户反馈聚类、半监督核学习聚类、半监督核均值移动聚类、特征投影半监督聚类、图半监督聚类等、半监督异构进化聚类、半监督深度学习聚类,等等。另外,半监督回归方法也取得了进展,代表性方法包含标签约束半监督线性回归、半监督局部线性回归、半监督核岭回归、半监督支持向量机回归、半监督谱回归、半监督高斯过程回归、半监督样条回归、半监督序回归、半监督多任务回归、协同训练回归,等等。除了以上脱机式半监督学习方法之外,半监督鲁棒联机聚类、并行式图半监督学习等联机、分布与并行式半监督学习方法也得到了发展。

最近,随着深度学习的兴起,半监督深度学习也以各种形式出现。利用受限玻尔兹曼机和自编码机的预训练方式成为训练大型神经网络的重要手段。随后,阶梯网络成为标志性的半监督分类神经网络。半监督自编码机、半监督生成对抗网络得到了广泛的研究。同时,基于图卷积神经网络的半监督分类算法进一步拓展了深度半监督学习方法。

半监督学习是本世纪初模式识别与机器学习中的重要进展,丰富了模式分类的手段和方法体系,促进了分类器构造、聚类分析、维数缩减、特征选择、距离度量学习、迁移学习等基本问题的研究。半监督学习在交互式图像分割、文本分类、信息检索、生物特征识别、生物信息处理、遥感图像理解等诸多模式识别任务中得到了广泛应用。

12. 迁移学习

迁移学习是机器学习中一类特殊的学习方式,具体是指利用数据、任务、模型等之间的相似性,将在一个领域(源域)的学习结果应用到另一领域(目标域)中的学习过程。通过迁移学习,可以有效提升学习器对新数据的自适应能力,充分利用已有数据和知识,减少对大量训练数据和大规模计算资源的依赖,提高学习效率和准确性。

迁移学习方法大致可以分为四类。第一类是基于样本迁移的方法,核心思想是通过加权重用的手段,在目标域中有选择地使用源域中数据。如早期工作中使用解决有偏采样的方法对源域样本进行重加权来模拟目标域样本。TrAdaboost方法基于Adaboost算法,根据是否有利于目标域分类,双向调节源域样本在目标域中的权重,从而实现有选择地样本迁移。核均值匹配方法使加权的源域样本与目标域样本分布尽可能一致,实现样本迁移。第二类是基于特征表示迁移的方法,核心思想是学习一种新的特征表示,使源域和目标域的样本间差异在该表示下最小,从而源域的数据可在目标域中使用。如谱特征对齐方法以中心特征为桥梁,将源域和目标域特征用谱聚类进行统一。迁移成分分析方法以最大均值差异为准则,将不同数据领域中的分布差异最小化。由于深度学习的核心任务是特征学习,因此大多针对深度神经网络模型的迁移学习方法属于该类。如最简单的也是最常用的Finetune方法,直接利用已在其他任务上预训练好的网络进行训练,可以极大地节省训练时间和样本。生成对抗网络的思想也可用于迁移学习,在领域对抗神经网络中,引入领域对抗分支使得两域样本经过特征提取网络后无法区分其来自哪个域,从而将两域特征统一。第三类是基于模型迁移的方法,通过构建参数共享模型并实施参数约束,促使有效的参数信息从源域传递到目标域中。例如假定SVM的权重向量由两部分加和组成,其中一部分由源域和目标域共享。此外,迁移深度神经网络中的特征共享大多是通过共享网络结构实现的,因此这些方法实际也可以看作模型和特征迁移相结合的方法。第四类是基于关系迁移的方法,该类方法用得较少,主要是挖掘和利用关系进行类比迁移。如有借助马尔科夫逻辑网络挖掘不同领域之间关系相似性的几个工作。除方法研究以外,迁移学习的理论研究也取得部分成果,用来解释迁移学习的可行性以及可行条件等,目前取得的成果建立了领域间差异与目标域泛化界之间的关系。当前迁移学习研究的一个新趋势是动态数据流上的连续迁移学习,此时数据不能简单地划分为源域和目标域,而是连续动态变化或者有多个域,或者域之间的界限不清楚,对这种非静态数据流的自适应和迁移学习将显著提升系统的实际鲁棒性。

迁移学习是人类自然掌握的一种学习方式,很早就有哲学家和心理学家提出相关的概念,在机器学习领域中的起源可以追溯到1995年NIPS上关于Learning to Learn的Workshop,之后一直是学界的一个研究热点。迁移学习的研究起步相对较晚。人们从不同视角面向不同的情形提出了大量的算法,并在领域自适应、元学习、终身学习等方向取得重要进展。其中,领域自适应是非常活跃的一个方向,通常特指源域与目标域的样本分布或特征表示之间存在差异而任务类型相同的情形,监督信息一般全部来自源域,通过特定的变换使其自适应到目标域中为之所用,是迁移学习中最常见的一类方法。迁移学习的应用也十分广泛,包括但不限于计算机视觉、文本分类、行为识别、自然语言处理、时间序列分析、视频监控、舆性分析、人机交互等,迁移学习在这些领域中发挥着重要的作用。

13. 多任务学习

多任务学习是机器学习中的一类重要方法,它是指给定一批学习任务,其中全部或者部分任务是相关的,通过联合学习这批任务来提升各个任务的性能。多任务学习最常被用于训练样本稀少的情况,通过信息在任务间的相互传递,每个任务都从其他任务获得了更多的样本信息,从而减轻因样本稀少造成的过拟合,提高学习性能。多任务学习与迁移学习密切相关,它们都涉及到学习任务间的相互帮助,但信息流动方向的差异使得他们的实现方法有着明显差异。此外,多标签学习可以看作多任务学习的一种特殊情况。

根据任务间共享内容的不同,多任务学习方法大致可以分为以下几类。第一类是基于特征共享的方法,即不同任务共享部分或全部特征。Caruana在1997年最早提出的多任务学习策略即属此类方法。在该项工作中,任务相关的浅层神经网络共享同一个隐含层,但各任务使用独立的输出层,从而实现了公共特征的提取;同时,通过构造辅助学习任务来与主任务共享特征,帮助提升主任务的性能。这些朴素的多任务学习思想至今仍然被广泛地应用在相关领域中,特别是对于深度神经网络,很容易实现特征共享。例如,将人脸识别任务与人脸认证任务联合学习,共享特征提取层,从而提高特征提取质量并提升两个任务的性能。再如在脸部特征点检测任务中,设计与之相关的辅助任务,如判断是否戴眼镜、判断是否是笑容、性别分类、姿态分类等,令它们共享特征并联合学习,利用辅助任务标签带来的额外信息,提高了主任务特征点检测的性能。近年来,学术界基于该思想提出了很多改进方法,以更加灵活地共享特征,如十字绣网络可自动学习网络共享层数,全自适应特征共享方法可自动发现最优的多任务网络结构等。针对非神经网络模型,基于特征共享的方法包括联合特征选择和联合特征变换等,采取的手段包括利用结构化稀疏约束(如矩阵2,1-范数)实现联合降维等。第二类方法是基于参数共享的方法,即假设这些任务的参数之间以某种形式发生了共享,并根据共享形式施加相应的约束。最常见的如低秩假设,用nuclear norm对参数矩阵进行正则化,以使得到的参数矩阵具有较低的秩,即将这些任务的参数限制在一个维数较低的子空间中。当每个任务具有多个输出时,由于每个任务的参数是一个矩阵,则基于张量分解对以上方法进行扩展。另一种参数共享形式是空间聚类,最简单的一个假设是每个任务由公共部分和个体部分组成,直接基于该假设建模,便得到均值正则化多任务学习方法。更进一步,假设这些任务聚成多个簇,每个簇内的任务共享一个公共部分,同时学习多个任务和聚类方式,便得到了任务自主聚类方法。多任务关系学习则假设所有任务都服从矩阵正态分布,在学习过程中自动学习描述任务间相关性的任务协方差矩阵。还有其他一些基于更复杂的假设的多任务学习方法,大多通过引入合适的约束得以实现。有关多任务学习的理论研究也一直受到关注,学者主要研究多任务学习起作用的机制以及理论保证,解释多任务学习如何提高学习模型的泛化性。

多任务学习自从提出以来,就受到了学界的重视,它不仅丰富了机器学习理论,而且在实际应用中发挥了重要的作用,包括计算机视觉、生物信息学、健康信息学、语音分析、自然语言处理、网络应用和普适计算等应用领域,有效地缓解了单一任务训练样本不足时的过拟合问题,提高了各自的性能。此外多任务学习可以与其他很多学习方法有机结合,提高它们的性能。


能看到这里人应该炒鸡厉害吧...

欢迎大家评论区交流


权威整理|模式识别基础重要研究进展(二)的评论 (共 条)

分享到微博请遵守国家法律