欢迎光临散文网会员登陆 & 注册

12 权重衰退【动手学深度学习v2】

2021-12-07 10:02 作者:如果我是泡橘子 0人读过 | 我要投稿

权重衰退

最常见的处理过拟合的方法

如何控制模型的容量

将模型变得比较小，减少里面的参数的数量
缩小参数值的取值范围

硬性限制

θ用来限制权重 w 的变化范围
通常不会限制偏移 b ,从统计学上来讲，偏移是整个数据对于 0 点的偏移，是不应该限制的，但是实际上，限不限制效果相同
θ越小，限制就越强。最强的情况下就是θ等于0，所有的w都等于0，只能选一个偏移
一般来说θ会选择1、0.1、0.01

柔性限制

λ是一个超参数，λ控制了整个正则项的重要程度
λ趋向于无穷大的时候就等价于硬性限制中θ趋向于0，使得最优解w*也会慢慢趋向于0
可以通过增加λ来控制模型的复杂度（让模型不要太复杂）

演示对最优解的影响

绿线代表损失函数l的等高线
绿点代表损失函数l的最优点（只优化损失的情况）
w的2次项可以认为是一个以原点为中心的等高线，如橘黄色圆圈
原始的最优解（绿点）就不是最优了，因为它的值对于橘黄色的线来说比较大。这里可以理解为w~*就是橘黄色圆圈和绿色圆圈的等高线的值之和，在橘黄色圆圈中，原点值最小，向外增加；在绿色圆圈中，绿点值最小向外增加
如果w~*从绿点出发，沿着蓝色箭头走，l的值会增大，但是w的二次项（阀的项）的值会减小，走到w*处达到平衡点总体上来讲，阀的引入，使得最优解向原点偏移，对应的最优解的值会变得小一些，绝对值会变小，从而模型的复杂度会变低

参数更新法则

通常来讲，λ和学习率的乘积是小于1的
为什么叫权重衰退？因为λ的引入使得当前的权重做了一次缩小操作，即所说的衰退

总结

λ是控制模型的超参数，通过控制λ的大小来控制模型的复杂度

----to be continued----

标签：

12 权重衰退【动手学深度学习v2】的评论 (共条)