欢迎光临散文网 会员登陆 & 注册

信息熵、条件熵、相对熵、交叉熵?

2023-03-23 10:57 作者:椒麻脆脆鸡  | 我要投稿

信息量

衡量随机变量Xi时包含的信息的多少,单位是比特。必然事件的信息量为0,可能性越小的事件包含的信息量越大,两个独立的事件同时发生信息量等于他们各自发生时的信息量之和。

信息熵

是随机变量所有可能取值的信息量的期望,用于表示某随机变量不确定性大小,信息熵越大表示该随机变量的信息量的期望越大

条件熵

表示在已知随机变量X取值的条件下Y的不确定性(信息熵),定义为给定XY的概率分布的熵对X的期望,具体计算方法:首先遍历X的各个取值,每个X取值都对应一个数据子集,然后根据每个字迹下Y的分布计算Y的信息熵,最后在求这些信息熵求加权和。

互信息量

表示引入XY的不确定性减少的量,减少的越多表示X越有利于Y的确定,即两者间的相关性越强,互信息量可以捕捉变量间的任意相关关系(包括线性与非线性)。

互信息量是对称的,即I(Y;X)=I(X;Y)


相对熵(KL散度)

相对熵可以衡量两个分布XY的相似性,两个概率分布越相近,KL散度越小,以下为离散变量分布间的相对熵。

互信息量是非对称的,即D(Y||X) \neq D(X||Y),式中Y在前就表示给定Y的情况下,X相对Y的相似程度。

交叉熵损失

交叉熵用于衡量模型预测值与真实值间的差异大小,可以看作相对熵的一种特定情况,以Y表示真实值的分布,X表示预测值的分布。

首先对相对熵进行化简:


由于真实值分布的信息熵为定值,即上式中-H(Y)为定值,那么令上式最后一项为交叉熵,就足以表示真实分布与预测分布的差异大小:

对于2分类问题,k取2,上式可写成如下形式:

y=P(y_1), \hat{y}=P(x_1),变换一下形式,就得到了我们熟悉的单个样本的交叉熵损失:

而多个样本的损失,取平均值就行:


信息熵、条件熵、相对熵、交叉熵?的评论 (共 条)

分享到微博请遵守国家法律