信息熵、条件熵、相对熵、交叉熵?

2023-03-23 10:57 作者:椒麻脆脆鸡 0人读过 | 我要投稿

信息量

衡量随机变量X取i时包含的信息的多少，单位是比特。必然事件的信息量为0，可能性越小的事件包含的信息量越大，两个独立的事件同时发生信息量等于他们各自发生时的信息量之和。

是随机变量所有可能取值的信息量的期望，用于表示某随机变量不确定性大小，信息熵越大表示该随机变量的信息量的期望越大

表示在已知随机变量X取值的条件下Y的不确定性（信息熵）,定义为给定X下Y的概率分布的熵对X的期望，具体计算方法：首先遍历X的各个取值，每个X取值都对应一个数据子集，然后根据每个字迹下Y的分布计算Y的信息熵，最后在求这些信息熵求加权和。

表示引入X后Y的不确定性减少的量，减少的越多表示X越有利于Y的确定，即两者间的相关性越强，互信息量可以捕捉变量间的任意相关关系（包括线性与非线性）。

互信息量是对称的，即I(Y;X)=I(X;Y)

相对熵可以衡量两个分布X与Y的相似性，两个概率分布越相近，KL散度越小，以下为离散变量分布间的相对熵。

互信息量是非对称的，即D(Y||X) \neq D(X||Y)，式中Y在前就表示给定Y的情况下，X相对Y的相似程度。

交叉熵用于衡量模型预测值与真实值间的差异大小，可以看作相对熵的一种特定情况，以Y表示真实值的分布，X表示预测值的分布。

首先对相对熵进行化简：

由于真实值分布的信息熵为定值，即上式中-H(Y)为定值，那么令上式最后一项为交叉熵，就足以表示真实分布与预测分布的差异大小：

对于2分类问题，k取2，上式可写成如下形式：

令y=P(y_1), \hat{y}=P(x_1)，变换一下形式，就得到了我们熟悉的单个样本的交叉熵损失：

而多个样本的损失，取平均值就行：

标签：