欢迎光临散文网 会员登陆 & 注册

“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“

2023-08-30 19:07 作者:废物学短  | 我要投稿

信息熵大~信息越不确定(难定)~信息越乱~信息越随机,大概可以这么理解

定义:


09:29


解释一下为什么是相加,不是相乘。f是信息量,可以理解为它是一个物理量,物理量是有量纲的,等号左边和右边必须量纲一致。如果右边是乘的话,就是信息量的平方了,量纲不同了。而概率,是没有量纲的,可以相乘。



11:44

-log2(x) 二分法 单位:比特

信息量

系统熵


相对熵——KL散度


18:42



分为前向和后向kl散度

KL散度在通信系统中,表示用一个信源表示另一个信源的复杂度

对KL需要两个分布support相同

  • 吉布斯不等式

把交叉熵应用到神经网络中


23:00



  • 这里P是基准,相当于人脑。而Q相当于神经网络,所以只能去改变Q来拟合P,而不能去改变P,P的取值是改不了的
  • KL散度就是求两个概率分布函数之间的距离,取事件数量多的才能计算所有差异。
  • P(m) Q(n)的数量不一样,始终用大的,当m<n时,还是用n,pi中的i取不到n呀,那是不是累加结果又变成和取m一样喃
  • 我觉得n>m时,取m和n得到的结果是一样的,而n<m时则一定要取m(较大的),都取较大的时为了方便记忆吧
  • 为啥取较大的,i>m的时候,pi的值是多少呢
  • 剩下的不能简单的直接带入概率为0吧 这样的话你的信息量怎么办 信息量里面是有log的 而且本来信息量里面有概率 这样的话事件少对应事件多的的信息量为无穷大? 我比较认同前面说的拆开按照条件概率分


1、这里求和上下限应该是1和2,分别对应是猫和不是猫两个事件

3、这里up不小心把“训练过程要对所有数据进行迭代”杂糅进求和过程了







“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“的评论 (共 条)

分享到微博请遵守国家法律