欢迎光临散文网 会员登陆 & 注册

Dropout:一种防止人工智能神经网络算法过度拟合的有效方法

2023-03-10 11:05 作者:python风控模型  | 我要投稿

之前我在金融风控违约预测模型方面积累大量经验,有多种方法可以防止模型过度拟合。如果大家有兴趣可以点击下面视频了解。

前几天我建立一个肺癌图像识别模型,如下图模型区分能力和预测能力都非常好,过度拟合较低。

今天重点谈谈人工智能图像识别模型降低过度拟合的一个通用良好方法-dropout。通过大量数据集实验,此方法有效。


概述

具有大量参数的深度神经网络是非常强大的机器学习系统。然而,在这种网络中,过度拟合是一个严重的问题。大型网络也是使用速度慢,难以通过结合许多预测来处理过度拟合测试时使用不同的大型神经网络。dropout是解决这个问题的一种方法。关键思想是从神经网络中随机丢弃单元(及其连接)培训期间的网络。这可以防止单位过度适应。在训练期间,来自指数级数量的不同“稀疏”网络的丢弃样本。在测试时,很容易对所有这些稀疏网络的预测结果进行平均通过简单地使用具有较小权重的单个非精简网络。这非常重要减少了过度拟合,并对其他正则化方法进行了重大改进。我们研究表明,dropout提高了神经网络在监督学习中的性能视觉、语音识别、文档分类和计算生物学中的任务,在许多基准数据集上获得最先进的结果。


1.介绍

深度神经网络包含多个非线性隐藏层,这使得它们非常可以学习其输入和输出之间非常复杂的关系的表达模型输出。然而,由于训练数据有限,许多复杂的关系将是采样噪声的结果,因此它们将存在于训练集中,但不是真实的测试数据,即使它来自相同的分布。这会导致过度拟合已经制定了减少这种情况的方法,包括尽快停止训练验证集的性能开始变差,引入了各种权重惩罚诸如L1和L2正则化和软权重共享(Nowlan和Hinton,1992)。

通过无限计算,“正则化”固定大小模型的最佳方法是对参数的所有可能设置的预测进行平均,通过给定训练数据的后验概率对每个设置进行加权。这有时可以非常接近适用于简单或小型模型,但我们希望使巨大计算量变少。我们建议通过近似相等加权的几何共享参数的指数数量的学习模型的预测的平均值。

(a)一个标准的神经网络,有两个隐藏层。

(b):dropuot神经网络模型。

正确的:通过向左侧的网络应用丢弃而生成的稀疏网络的示例。有交叉的圆圈单位已被丢弃。


Model combination模型组合几乎总是提高机器学习方法的性能。然而,对于大型神经网络许多单独训练的网都非常昂贵。结合多种模型当单个模型彼此不同时神经网络模型不同,它们要么具有不同的架构,要么经过训练基于不同的数据。训练许多不同的架构是困难的,因为找到最佳的每个架构的超参数都是一项艰巨的任务,训练每个大型网络需要大量的计算。此外,大型网络通常需要大量训练数据,并且可能没有足够的数据来训练不同的网络数据的不同子集。即使能够训练许多不同的大型网络,在测试时使用它们是不可行的,因为在应用程序中快速响应非常重要。


dropuot是一种解决这两个问题的技术。它可防止过度装配和提供了一种近似组合多种不同神经网络的方法高效的架构。“dropuot”一词是指dropuot单位(隐藏和可见)。我们把一个单元放出去,意味着暂时把它从网络及其所有传入和传出连接,如图1所示。要丢弃的单元的选择是随机的。在最简单的情况下,每个单元保留独立于其他单位的固定概率p,其中p可以通过验证来选择设置或可以简单地设置为0.5,这似乎接近于对于大范围的网络和任务。然而,对于输入单元,最佳保留概率为通常比0.5更接近1。

左:训练时出现概率为p的单位,与单位相连

右:在测试时,单位始终存在权重乘以p。测试时的输出与预期输出相同


在训练时间。

将丢弃应用于神经网络相当于从稀疏的网络由所有幸存的单元组成(图1b)。A.

具有n个单元的神经网络可以看作是2n个可能的稀疏神经网络的集合。这些网络都共享权重,使得参数的总数仍然是O(n**2.),或较少的对于每个训练案例的每次呈现,对新的稀疏网络进行采样训练。因此,训练一个有缺失的神经网络可以被视为训练2n的集合具有广泛权重共享的稀疏网络,其中每个稀疏网络都得到训练非常罕见,如果有的话。


在测试时,从指数上明确平均预测是不可行的许多稀疏模型。然而,一种非常简单的近似平均方法在实践这个想法是在测试时使用一个神经网络而不中断。重量该网络的权重是训练权重的缩小版本。如果单位保留概率p在训练期间,该单元的输出权重乘以测试时的p时间,如图2所示。这确保了任何隐藏单元的预期输出(低于用于在训练时丢弃单元的分布)与在训练时的实际输出相同测试时间。通过进行这种缩放,2**n个具有共享权重的网络可以组合成测试时使用的单个神经网络。我们发现在测试时使用这种近似平均法与训练相比,在各种分类问题上的泛化误差更低使用其他正则化方法。


dropuot的概念并不局限于前馈神经网络。它可以更普遍应用于图形模型,如Boltzmann机器。在本文中,我们介绍dropuot限制Boltzmann机器模型,并将其与标准限制Boltzmann机器(RBM)。我们的实验表明,dropuot风险管理比某些方面的标准成果管理制。


dropuot由来动机

dropuot的动机来自性在进化中的作用理论(Livnat等人,2010). 有性生殖包括获取父母一方一半的基因。另一种方法是添加非常少量的随机突变,并将它们结合起来,产生一个孩子。无性繁殖的替代方法是产生一个具有轻微突变拷贝的后代父母的基因。无性繁殖似乎是一种更好的方法优化个人健康状况,因为一组良好的基因协同工作可以直接传给后代。另一方面,有性生殖很可能特别是如果这些基因集很大,这会降低已经进化出复杂协同适应的生物体的适应性。然而,有性生殖是大多数先进生物进化的方式。有性生殖优越性的一个可能解释是,长期以来术语,自然选择的标准可能不是个人的适应性,而是混合能力基因。一组基因能够与另一组随机的基因使它们更健壮。因为一个基因不能依靠大量的伴侣无论何时,它都必须学会自己或与他人合作做一些有用的事情少数其他基因。根据这一理论,性生殖的作用不仅仅是为了让有用的新基因在人群中传播通过减少复杂的协同适应来促进这一过程,从而减少一种改善个体健康的新基因。类似地,神经系统中的每个隐藏单元受过辍学训练的网络必须学会与随机选择的其他样本一起工作单位。这将使每个隐藏单元更强大,并推动其创建有用的而不依赖其他隐藏单元来纠正错误。然而一个层中的隐藏单元仍然会学习彼此做不同的事情。一可以想象,通过制作许多拷贝,网络将变得强大,防止dropuot但这是一个糟糕的解决方案,原因与副本代码完全相同是处理嘈杂频道的糟糕方法。一个密切相关但略有不同的辍学动机来自于思考

关于成功的阴谋。10起阴谋,每起涉及5人比一场需要50人参与的大阴谋更能制造混乱他们的零件正确。如果情况没有改变,并且有足够的时间排练大阴谋可以很好地运作,但在非平稳条件下,阴谋越小它继续工作的机会就越大。复杂的协同适应可以训练得很好。在训练集上,但在新的测试数据上,它们比多个更简单的测试数据更容易失败共同适应,实现同样的目标。


多个数据集实验结果

我们训练了用于不同数据集分类问题的丢弃神经网络域。我们发现,dropuot改进了所有数据集的泛化性能与不使用辍学的神经网络相比。表1简要描述了数据集。

数据集为

•MNIST:手写数字的标准玩具数据集。

•TIMIT:用于清晰语音识别的标准语音基准。

•CIFAR-10和CIFAR-100:微小的自然图像(Krizhevsky,2009)。

•街景房屋编号数据集(SVHN):

谷歌街景(Netzer等人,2011年)。

•ImageNet:大量自然图像的集合。

•Reuters-RCV1:路透社新闻网文章集

我们选择了一组不同的数据集来证明dropuot是一种通用技术用于改进神经网络,并且不特定于任何特定的应用领域。我们给出了一些关键结果,表明了辍学的有效性。

例如在MNIST实验中,我们发现应用dropout技术后,模型error错误率显著降低到0.79.


如下图,神经网络模型各有2至4个隐藏层,具有1024至2048个单元。应用dropout技术后模型error错误率显著降低。

下图是街景房屋编号数据集的结果,应用dropout技术后模型error错误率显著降低到2.55%。

下图是来自图像数据集的样本。每行对应不同的类别。应用dropout技术后模型error错误率显著降低。

根据我们的模型预测,一些ImageNet测试用例具有4个最可能的标签。水平条的长度与分配给标签的概率成比例。根据模型。粉色表示地面真相。应用dropout技术后模型error错误率显著降低。

下图是TIMIT核心测试集的电话错误率。应用dropout技术后模型error错误率显著降低。

最后我强调一下,很多学生在写论文时,核心观点和标题不正确。他们常犯一个错误是神经网络算法比逻辑回归或集成树算法更优越。神经网络算法多用于图像识别和语音识别,逻辑回归或集成树算法多用于金融风控违约预测模型。不同算法没有完全优劣之分,而是应用场景不一样。当然我们也会用一些神经网络算法建立金融风控违约预测模型,但应用非常少,模型性能也不一定最优。一种算法表现平淡无奇,但通过精心数据预处理后,算法预测能力可以得到增强。比如逻辑回归之间应用于原始数据,性能一般。但对数据分箱处理后再转换为woe值,逻辑回归模型预测能力可以得到显著增强。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

Dropout:一种防止人工智能神经网络算法过度拟合的有效方法的评论 (共 条)

分享到微博请遵守国家法律