学习分享一年,对神经网络的理解全都在这40分钟里了

反向传播中,根据 X,来求解 Y^ 最大时,w的大小
34:35
y^ 的最高点,即令损失函数最小的y^的值


曲面上任意一点,都可以求出一个向量,这个向量总是指向上升最快的方向。这个向量在参数平面上的投影叫梯度。 这个向量也是梯度在切平面上的投影。


实际计算时,有的策略时计算最大值,有的是计算最小值,为了统一起来,即是求最大值,也给他取反,变成计算最小值。
由于梯度始终指向上升最快的方向,实际计算时,先对梯度求反,那么其就会指向下降最快的方向。
如下图, 梯度始终和“等高线” 保持垂直。 地图本身是一个向量,代表着在所有参数维度上都有分量。 所以参数都按照梯度的分量来进行调整,那么代表了参数 w 做出了当前最好的选择。

增加一个学习率


梯度的计算

