“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“

信息熵大~信息越不确定(难定)~信息越乱~信息越随机,大概可以这么理解
定义:

09:29

解释一下为什么是相加,不是相乘。f是信息量,可以理解为它是一个物理量,物理量是有量纲的,等号左边和右边必须量纲一致。如果右边是乘的话,就是信息量的平方了,量纲不同了。而概率,是没有量纲的,可以相乘。


-log2(x) 二分法 单位:比特
11:44

信息量

系统熵


相对熵——KL散度
18:42


分为前向和后向kl散度
KL散度在通信系统中,表示用一个信源表示另一个信源的复杂度
对KL需要两个分布support相同

- 吉布斯不等式
把交叉熵应用到神经网络中
23:00

- 这里P是基准,相当于人脑。而Q相当于神经网络,所以只能去改变Q来拟合P,而不能去改变P,P的取值是改不了的
- KL散度就是求两个概率分布函数之间的距离,取事件数量多的才能计算所有差异。
- P(m) Q(n)的数量不一样,始终用大的,当m<n时,还是用n,pi中的i取不到n呀,那是不是累加结果又变成和取m一样喃
- 我觉得n>m时,取m和n得到的结果是一样的,而n<m时则一定要取m(较大的),都取较大的时为了方便记忆吧
- 为啥取较大的,i>m的时候,pi的值是多少呢
- 剩下的不能简单的直接带入概率为0吧 这样的话你的信息量怎么办 信息量里面是有log的 而且本来信息量里面有概率 这样的话事件少对应事件多的的信息量为无穷大? 我比较认同前面说的拆开按照条件概率分
1、这里求和上下限应该是1和2,分别对应是猫和不是猫两个事件
3、这里up不小心把“训练过程要对所有数据进行迭代”杂糅进求和过程了