浅谈torch中的softmax与CrossEntropy

2023-08-14 02:41 作者:momonaの男友 0人读过 | 我要投稿

首先是softmax函数，我认为我在之前的文章

分类模型中为何更适合使用softmax函数？

已经较为清楚的阐述，故这里不再重复赘述。

在上文中，我较为清晰的说明了，softmax函数只是为了将我们的预测结果，表达成一种合适的结果，去拟合one-hot编码。

但是对于这种向量标签，我们并不能很好的去定义其损失函数（误差函数）。

我们理所当然应该想到均方误差函数，但实际上，均方误差函数(MSE)，对于标量标签确实能起到一个非常好的效果。

而对于一个向量标签，我们选择了一个能实现与之同等效果的CrossEntropy函数，也即交叉熵损失函数。

如上图所示，其中 $y$ 为正确的标签，而 $%5Chat%7By%7D$ 为预测标签(经过softmax处理后)。

该损失函数在计算上具有非常明显的便利性，即仅考虑正确标签下对应的损失。例如，我们不妨令 $y$ = [0, 1, 0]， $%5Chat%7By%7D%20$ = [0.3, 0.1, 0.6]，那么此时的 $loss%20%3D%20-0log0.3-1log0.1-0log0.6%3D-log0.1$ ，