欢迎光临散文网 会员登陆 & 注册

学习分享一年,对神经网络的理解全都在这40分钟里了

2023-08-08 01:45 作者:gsimetest  | 我要投稿

反向传播中,根据 X,来求解 Y^ 最大时,w的大小


34:35


y^ 的最高点,即令损失函数最小的y^的值


曲面上任意一点,都可以求出一个向量,这个向量总是指向上升最快的方向。这个向量在参数平面上的投影叫梯度。 这个向量也是梯度在切平面上的投影。


实际计算时,有的策略时计算最大值,有的是计算最小值,为了统一起来,即是求最大值,也给他取反,变成计算最小值。

由于梯度始终指向上升最快的方向,实际计算时,先对梯度求反,那么其就会指向下降最快的方向。

如下图, 梯度始终和“等高线” 保持垂直。 地图本身是一个向量,代表着在所有参数维度上都有分量。 所以参数都按照梯度的分量来进行调整,那么代表了参数 w 做出了当前最好的选择。

增加一个学习率



梯度的计算






学习分享一年,对神经网络的理解全都在这40分钟里了的评论 (共 条)

分享到微博请遵守国家法律