信息熵、条件熵、相对熵、交叉熵?
衡量随机变量X取i时包含的信息的多少,单位是比特。必然事件的信息量为0,可能性越小的事件包含的信息量越大,两个独立的事件同时发生信息量等于他们各自发生时的信息量之和。

信息熵
是随机变量所有可能取值的信息量的期望,用于表示某随机变量不确定性大小,信息熵越大表示该随机变量的信息量的期望越大

条件熵
表示在已知随机变量X取值的条件下Y的不确定性(信息熵),定义为给定X下Y的概率分布的熵对X的期望,具体计算方法:首先遍历X的各个取值,每个X取值都对应一个数据子集,然后根据每个字迹下Y的分布计算Y的信息熵,最后在求这些信息熵求加权和。

互信息量
表示引入X后Y的不确定性减少的量,减少的越多表示X越有利于Y的确定,即两者间的相关性越强,互信息量可以捕捉变量间的任意相关关系(包括线性与非线性)。

互信息量是对称的,即I(Y;X)=I(X;Y)
相对熵(KL散度)
相对熵可以衡量两个分布X与Y的相似性,两个概率分布越相近,KL散度越小,以下为离散变量分布间的相对熵。

互信息量是非对称的,即D(Y||X) \neq D(X||Y),式中Y在前就表示给定Y的情况下,X相对Y的相似程度。
交叉熵损失
交叉熵用于衡量模型预测值与真实值间的差异大小,可以看作相对熵的一种特定情况,以Y表示真实值的分布,X表示预测值的分布。
首先对相对熵进行化简:

由于真实值分布的信息熵为定值,即上式中-H(Y)为定值,那么令上式最后一项为交叉熵,就足以表示真实分布与预测分布的差异大小:

对于2分类问题,k取2,上式可写成如下形式:

令y=P(y_1), \hat{y}=P(x_1),变换一下形式,就得到了我们熟悉的单个样本的交叉熵损失:

而多个样本的损失,取平均值就行:
