神经网络学习的目的是寻找使损失函数尽可能小的权重偏置参数,也即是寻找最优参数,目前主要有四种寻找最优参数的方法:
随机梯度下降法(SGD):使用最广泛
Momentum
AdaGrad
Adam:综合性能最好
这四种方法的参数更新路径的对比如下图: