“升维的降维打击”-参数训练的驻点分析

2023-02-19 18:46 作者:白泽火凤 0人读过 | 我要投稿

1. 优化失败的原因

“山外有山比山高”-为什么叫深度学习？在上一节中，讨论了如何通过梯度下降方法训练深度学习模型()。随着参数训练更新次数的增加，可能会遇到两种常见的失败情况：第一种，损失函数随着更新次数的增加呈现出平稳的状态，并没有非常明显的下降趋势；第二种，损失函数的数值虽然在下降，但是在某次更新后不再继续下降，且损失函数数值并没有很小。

这两种情况发生的原因通常是梯度为0或很小，导致参数不再更新或变化不大。在高等数学中，将这种梯度为0的情况称为驻点（Critical Point）。根据损失函数的不同，又可以将驻点细分为局部极小点（Local Minima）、局部极大点（Local Maxima）和鞍点（Saddle Point）。

局部极小点意为在一定范围内，所有的函数值都比该点的函数值大；局部极大点意为在一定范围内，所有函数值都比该点函数值小。从二维函数的角度来看，鞍点一个方向的截面呈现出局部极小点的情况，另一个方向的截面呈现出局部极大点的情况，形状如同“马鞍”状。

深度学习模型在参数优化的过程中使用的是梯度下降方法，所以当遇到梯度为0的情况下，可以排除局部极大点的情况。当训练时遇到局部极小点的情况，便无法判断下一步的更新方向；但遇到鞍点的情况，或许可以判断下一步的更新方向。因此，区分当前驻点是局部极小点和鞍点对深度学习模型的参数优化具有极大的参考价值。

2. 区分局部极小点和鞍点

2.1理论分析

根据局部极小点和鞍点的定义，假设在处梯度为0，需要考虑在 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 向量附近的情况。依据泰勒定理可知，在 $%7B%5Ctheta%7D%3D%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 处附近，可以近似将损失函数进行二阶展开。

$L(%7B%5Ctheta%7D)%20%5Capprox%20L%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%2B%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%5E%7BT%7D%20%7Bg%7D%2B%5Cfrac%7B1%7D%7B2%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%5E%7BT%7D%20%7BH%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%20%20%20%20%20%20%20%20%20%20%20%20%20%20(1)$

在式中 $%7Bg%7D$ 表示为梯度，是一个向量，有 $%7Bg%7D%3D%5Cnabla%20L%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)$ , $g_%7Bi%7D%3D%5Cfrac%7B%5Cpartial%20L%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%7D%7B%5Cpartial%20%7B%5Ctheta%7D_%7Bi%7D%7D$ ; $%7BH%7D$ 是一个矩阵，存储的是二阶导数，被称为Hessian矩阵，因此有 $H_%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%7D%7B%5Cpartial%20%5Ctheta_%7Bi%7D%20%5Cpartial%20%5Ctheta%7D_%7Bj%7D%20L%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)$ 。由损失函数的二阶泰勒展开式可知，损失函数在 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 附近的值和梯度的Hessian矩阵有关。

由于 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 为驻点，因此 $%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%5E%7BT%7D%20%7Bg%7D$ 为0，原式转化为公式（2）。

$L(%7B%5Ctheta%7D)%20%5Capprox%20L%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%2B%5Cfrac%7B1%7D%7B2%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%5E%7BT%7D%20%7BH%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%EF%BC%882%EF%BC%89$

因此 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 的驻点类型是局部极小点还是鞍点取决于带有Hessian矩阵的最后一项 $%5Cfrac%7B1%7D%7B2%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)%5E%7BT%7D%20%7BH%7D%5Cleft(%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)$ 。

将 $%7B%5Ctheta%7D-%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 记为 $%7Bv%7D$ ,最后一项则记为 $%5Cfrac%7B1%7D%7B2%7D%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 。假设对于任意的向量 $%7Bv%7D$ ，有 $%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 大于0，此时 $L(%7B%5Ctheta%7D)%20$ 大于 $L(%7B%5Ctheta%7D%5E%7B%5Cprime%7D)$ ，因此 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 的类型为局部极小点；假设对于任意的向量 $%7Bv%7D$ ，有 $L(%7B%5Ctheta%7D)%20$ 小于0，此时 $L(%7B%5Ctheta%7D)$ 小于 $L(%7B%5Ctheta%7D%5E%7B%5Cprime%7D)$ ，因此 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 的类型为局部极大点；若对于任意的向量 $%7Bv%7D$ ， $%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 有正有负，此时 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D$ 的类型为鞍点。

依据线性代数的矩阵理论对于任意的向量 $%7Bv%7D$ ， $%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 大于0，可认为 $%7BH%7D$ 为正定矩阵（Positive Definite），此时矩阵 $%7BH%7D$ 的所有特征值（Eigen Value）均大于0；对于任意的向量 $%7Bv%7D$ ， $%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 小于0，可认为 $%7BH%7D$ 为负定矩阵（Negative Definite），此时矩阵 $%7BH%7D$ 的所有特征值（Eigen Value）均小于0;对于任意的向量 $%7Bv%7D$ ， $%7Bv%7D%5E%7BT%7D%20%7BH%7D%7Bv%7D$ 有正有负，此时矩阵 $%7BH%7D$ 的所有特征值（Eigen Value）也有正有负。综上，驻点类型的判断取决于Hessian矩阵，如果Hessian矩阵为正定矩阵，其所有的特征值均大于0，驻点类型为局部极小值；如果Hessian矩阵为负定矩阵，其所有的特征值均小于0，驻点类型为局部极大值；如果Hessian矩阵有正有负，其所有的特征值也有正有负，驻点类型为鞍点。

2.2实例分析

通过一个案例来分析判断驻点是局部极小点、局部极大点和鞍点的哪一种。假定，机器学习模型为 $y%3Dw_%7B1%7Dw_%7B2%7Dx$ ,只有一笔训练数据x=1，y=1。该图绘制出了损失函数随两个参数 $w_%7B1%7D$ 和 $w_%7B2%7D$ 变化的曲面图。最中间黑色点、左下方一排黑色点和右上方一排黑色点是梯度为0的驻点。图中由蓝至红的颜色变化，表示损失函数数值逐渐增大，因此易知中心黑色点为鞍点，左下方一排黑色点和右上方一排黑色点是局部极小点。

可以从数学理论的角度来分析这些驻点的类型。计算该模型的损失函数可得公式（3）

$L%3D%5Cleft(%5Chat%7By%7D-w_%7B1%7D%20w_%7B2%7D%20x%5Cright)%5E%7B2%7D%3D%5Cleft(1-w_%7B1%7D%20w_%7B2%7D%5Cright)%5E%7B2%7D%20%20%20%20%20%20%20%20%EF%BC%883%EF%BC%89$

根据上面的理论分析，首先需要求其驻点，分别求损失函数关于 $w_%7B1%7D$ 和 $w_%7B2%7D$ 的偏导数可得公式（4）。

$%0A%5Cbegin%7Barray%7D%7Br%7D%0A%0A%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w_%7B1%7D%7D%3D2%5Cleft(1-w_%7B1%7D%20w_%7B2%7D%5Cright)%5Cleft(-w_%7B2%7D%5Cright)%0A%0A%3D0%20%5C%5C%0A%0A%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w_%7B2%7D%7D%3D2%5Cleft(1-w_%7B1%7D%20w_%7B2%7D%5Cright)%5Cleft(-w_%7B1%7D%5Cright)%0A%0A%3D0%0A%0A%5Cend%7Barray%7D%20%20%20%20%20(4)$

可得驻点为 $w_%7B1%7D%3D0$ , $w_%7B2%7D%3D0$ 或 $w_%7B1%7Dw_%7B2%7D%3D1$ 。 $w_%7B1%7D%3D0$ , $w_%7B2%7D%3D0$ 对应的点即为图中中心黑色点； $w_%7B1%7Dw_%7B2%7D%3D1$ 对应的点即为左下方一排黑色点和右上方一排黑色点。接下来计算二阶偏导数，可得Hessian矩阵见公式（5）。

$%5Cbegin%7Barray%7D%7Bc%7D%0A%0A%5Cfrac%7B%5Cpartial%5E%7B2%7D%20L%7D%7B%5Cpartial%20w_%7B1%7D%5E%7B2%7D%7D%3D2%5Cleft(-w_%7B2%7D%5Cright)%5Cleft(-w_%7B2%7D%5Cright)%20%5Cquad%20%5Cfrac%7B%5Cpartial%5E%7B2%7D%20L%7D%7B%5Cpartial%20w_%7B1%7D%20%5Cpartial%20w_%7B2%7D%7D%3D-2%2B4%20w_%7B1%7D%20w_%7B2%7D%20%5C%5C%0A%0A%5Cfrac%7B%5Cpartial%5E%7B2%7D%20L%7D%7B%5Cpartial%20w_%7B2%7D%20%5Cpartial%20w_%7B1%7D%7D%3D-2%2B4%20w_%7B1%7D%20w_%7B2%7D%20%5Cquad%20%20%5Cfrac%7B%5Cpartial%5E%7B2%7D%20L%7D%7B%5Cpartial%20w_%7B2%7D%5E%7B2%7D%7D%3D2%5Cleft(-w_%7B1%7D%5Cright)%5Cleft(-w_%7B1%7D%5Cright)%0A%0A%5Cend%7Barray%7D%20%20%20%20%20%20%20%20%EF%BC%885%EF%BC%89$

分别将 $w_%7B1%7D%3D0$ , $w_%7B2%7D%3D0$ 和 $w_%7B1%7Dw_%7B2%7D%3D1$ 代入Hessian矩阵可得矩阵见公式（6）和公式（7）。

$%0AH%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcc%7D%20%20%20%20%20%20%0A%0A0%20%26%20-2%20%5C%5C%0A%0A-2%20%26%200%0A%0A%5Cend%7Barray%7D%5Cright%5D%20%20%20%20%20%20%20%20%EF%BC%886%EF%BC%89%20%20%20%20%20$

$H%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcc%7D%0A%0A2w_%7B2%7D%5E%7B2%7D%20%26%202%20%5C%5C%20%20%20%20%20%0A%0A2%20%26%202w_%7B1%7D%5E%7B2%7D%0A%0A%5Cend%7Barray%7D%5Cright%5D%20%20%20%20%20%20%20%20%20%20(7)$

计算式（6）对应的特征值可求得 $%5Clambda_%7B1%7D%3D2$ ， $%5Clambda_%7B2%7D%3D-2$ ，因此中间黑色的点为鞍点；计算式（7）对应的特征值可求得公式（8）

$%5Cbegin%7Barray%7D%7Br%7D%0A%0A%5Clambda_%7B1%7D%5Clambda_%7B2%7D%3D0%20%5C%5C%0A%0A%5Clambda_%7B1%7D%2B%5Clambda_%7B2%7D%3Dw_%7B1%7D%5E2%2Bw_%7B2%7D%5E2%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%0A%0A%5Cend%7Barray%7D%20%20%20%20%EF%BC%888%EF%BC%89$

由公式（8）可知， $%5Clambda_%7B1%7D$ 和 $%5Clambda_%7B2%7D$ 必有一值为0，且 $%5Clambda_%7B1%7D$ 和 $%5Clambda_%7B2%7D$ 之和大于等于0，因此，左上和右下黑色的点为局部极小点。

3. 鞍点的更新方法

在训练深度模型的过程中，如果参数更新停留在鞍点，从理论上来说，可以找到下一步的更新方向。对公式（2）进一步分析，假设 $%7Bu%7D$ 是 $%7BH%7D$ 的特征向量， $%5Clambda$ 是特征值且小于0，且 $%7B%5Ctheta%7D$ 和 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5C$ 的差距为特征向量 $%7Bu%7D$ 。因此，公式（2）的后半部分可写成 $%7Bu%7D%5E%7BT%7D%20%7BH%7D%7Bu%7D$ 。由线性代数理论可得（9）式

$%7Bu%7D%5E%7BT%7D%20H%20%7Bu%7D%3D%7Bu%7D%5E%7BT%7D(%5Clambda%20%7Bu%7D)%3D%5Clambda%5C%7C%7Bu%7D%5C%7C%5E%7B2%7D%20%20%20%EF%BC%889%EF%BC%89$

由于 $%5Clambda$ 小于0，因此公式（9）表示，当 $%7B%5Ctheta%7D$ 和 $%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5C$ 的差距为特征向量 $%7Bu%7D$ 时即 $%7B%5Ctheta%7D%3D%7B%5Ctheta%7D%5E%7B%5Cprime%7D%2B%7Bu%7D$ ， $L(%7B%5Ctheta%7D)%3CL%5Cleft(%7B%5Ctheta%7D%5E%7B%5Cprime%7D%5Cright)$ 。因此，只需要沿着 $%7Bu%7D$ 的方向更新参数，便可以使损失函数下降。

仍以模型 $y%3Dw_%7B1%7Dw_%7B2%7Dx$ 为例，取 $%5Clambda_%7B2%7D%3D-2$ 的特征值，易知其中一个特征向量为

$%7Bu%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bl%7D%0A%0A1%20%5C%5C%0A%0A1%0A%0A%5Cend%7Barray%7D%5Cright%5D%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20(10)$

因此，如图所示的黑色箭头部分即为特征向量的方向，只需要沿着右上方更新参数，参数会更新至局部极小点。

4. 升维的“降维打击”

在实际训练的过程中，参数更新遇到鞍点的情况比局部极小点的情况多。以上图为例，左上方是一个二维参数的损失函数曲线；左下方是一个三维参数的损失函数曲面。左上方的曲线可以看成左下方曲面的二维投影，在二维的时候红色的驻点为局部极小点，在三维的时候红色的驻点就成了鞍点。驻点为鞍点仍然有可能是损失函数下降，而驻点为极小点，参数的更新就遇到了瓶颈，无法进一步优化更新。这表明，当模型维度上升时，驻点为鞍点的概率随着增加了，对比低维度的模型实际上起到了“降维打击”的作用。登高望远，站的高度越高，视野就更加开阔了，可选择的道路和方向就多了。这和荀子“登高而招，臂非加长也，而见者远；顺风而呼，声非加疾也，而闻者彰。假舆马者，非利足也，而致千里；假舟楫者，非能水也，而绝江河。君子生非异也，善假于物也。”的思维是一致的。

图中蓝色的点表示，训练一个神经网络参数更新至驻点时的情况，纵轴表示损失函数的数值，横轴表示正的特征值在所有特征值的比值。如图所示，由于基本上无法找到一个比值为1的点，因此在实际进行深度学习模型训练的过程中，遇到的大部分驻点都是鞍点（特征值都有正有负），局部极小点基本上不会出现。

标签：数据机器学习神经网络驻点参数训练模型人工智能深度学习算法降维打击