“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“

2023-08-30 19:07 作者:废物学短 0人读过 | 我要投稿

信息熵大～信息越不确定（难定）～信息越乱～信息越随机，大概可以这么理解

定义：

09:29

解释一下为什么是相加，不是相乘。f是信息量，可以理解为它是一个物理量，物理量是有量纲的，等号左边和右边必须量纲一致。如果右边是乘的话，就是信息量的平方了，量纲不同了。而概率，是没有量纲的，可以相乘。

11:44

-log2(x) 二分法单位：比特

信息量

系统熵

相对熵——KL散度

18:42

分为前向和后向kl散度

KL散度在通信系统中，表示用一个信源表示另一个信源的复杂度

对KL需要两个分布support相同

把交叉熵应用到神经网络中

23:00

这里P是基准，相当于人脑。而Q相当于神经网络，所以只能去改变Q来拟合P，而不能去改变P，P的取值是改不了的
KL散度就是求两个概率分布函数之间的距离，取事件数量多的才能计算所有差异。
P（m） Q（n）的数量不一样，始终用大的，当m<n时，还是用n，pi中的i取不到n呀，那是不是累加结果又变成和取m一样喃
我觉得n>m时，取m和n得到的结果是一样的，而n<m时则一定要取m(较大的)，都取较大的时为了方便记忆吧
为啥取较大的，i>m的时候，pi的值是多少呢
剩下的不能简单的直接带入概率为0吧这样的话你的信息量怎么办信息量里面是有log的而且本来信息量里面有概率这样的话事件少对应事件多的的信息量为无穷大？我比较认同前面说的拆开按照条件概率分

1、这里求和上下限应该是1和2，分别对应是猫和不是猫两个事件

3、这里up不小心把“训练过程要对所有数据进行迭代”杂糅进求和过程了

标签：

“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“的评论 (共条)