随机梯度下降法(SGD)的主要思路是什么?
将损失函数关于权重偏置参数的梯度作为线索,沿梯度方向更新参数,并重复步骤多次,逐渐靠近最优参数。
随机梯度下降法中有哪些求梯度的方法?
这里的梯度特指的是损失函数关于权重偏置参数的梯度。主要有两种求梯度的方法: