信息量、熵、交叉熵、KL散度、交叉熵损失函数
1、信息量 Amount of Information
信息量:衡量 事件发生的难度有多大
对于小概率事件,它发生的难度比较大,所以有较大的信息量
对于大概率事件,它发生的难度比较小,所以有较小的信息量
信息量公式 :
性质 : 对于独立事件 A、B :
,两个事件同时发生的信息量 等于 两个事件的信息量相加 : I(AB) =I(A) + I(B)
例1 : 抛硬币,正面概率 , 反面概率
例2 : 抛硬币,正面概率 , 反面概率
结论 : 小概率事件 有 较大的信息量, 大概率事件 有 较小的信息量

2、熵 Entropy
定义 : 概率分布 的信息量期望:
,(亦可理解为:系统整体的信息量。其中,系统整体由所有可能发生的事件构成。 比如抛硬币,正面和反面 就构成一个系统整体)
作用 : 用来评估概率模型的不确定性程度
不确定性越大,熵越大
不确定性越小,熵越小
公式 :
例1 : 抛硬币,正面概率 , 反面概率
例2 : 抛硬币,正面概率 , 反面概率
结论 :
若概率密度均匀,产生的随机变量的不确定性就更高,则熵的值就更大
若概率密度聚拢,产生的随机变量的确定性较高,则熵的值较小

3、交叉熵 Cross Entropy
定义 : 假设 真实概率分布为
、预测概率分布 (估计概率分布) 为
,预测概率分布
对真实的概率分布
的平均信息量 的估计,叫做交叉熵
公式 :
例1 : 抛硬币,正面真实概率 , 反面真实概率
,
正面估计概率 , 反面估计概率
例2 : 抛硬币,正面真实概率 , 反面真实概率
,
正面估计概率 , 反面估计概率
结论 :
(1)预估概率分布 与 真实概率分布 越接近,交叉熵越小。
(2)交叉熵的值 总是大于 熵的值 (根据 吉布斯不等式)

4、相对熵 (KL散度、 KL Divergence )
KL散度 以 Kullback 和 Leibler 的名字命名, 也被称为 相对熵
作用 : 用于衡量 2个概率分布 之间的差异
公式 :
重要性质:
(1)由 吉布斯不等式可知: ; 当 分布
和 分布
完全一样时,

(2) 与
不一样,即
- 表示以
为基准 (为真实概率分布),估计概率分布
与 真实概率分布
之间的差距
- 表示以
为基准 (为真实概率分布),估计概率分布
与 真实概率分布
之间的差距

5、交叉熵损失函数 Cross Entropy Loss
由上可知, KL散度 表示 预测分布
与 真实分布
之间的差距,所以 我们可直接将 损失函数定义为 KL散度:
并且我们希望 模型的预测分布 与 真实分布
完全相同 ,即 : 损失函数 Loss = D(p||q) = 0
损失函数:
对于分类问题,真实分布是一个单点分布,真实类别的概率为1, 其他类别的概率都为0,类似如下:

所以,
损失函数(1) 可进一步化简为 :
是交叉熵,所以损失函数 又称为 交叉熵损失函数 :
又因为真实分布为单点分布,真实类别的概率 , 其他类别的概率
所以 :

