欢迎光临散文网 会员登陆 & 注册

机器学习——最大熵

2023-06-25 21:15 作者:Vector永远的神  | 我要投稿

    先来说一下系统的信息熵,如下所示,对于某一个系统中的所有随机事件而言,对应事件的概率乘以信息量,就是系统的信息熵。当系统中每个事件的概率值相等时系统的信息熵最大。

信息熵

    在一个未知系统中,对于所有可能发生的随机事件通常的做法是将其设置成相同的概率pi,均分,此时系统的信息熵最大,这个也就是最大熵原则,表示系统的混乱程度也就越大。

    在机器学习的假设前提中,只有部分已知事实,也就是训练用的数据集,需要去预测真实的未知的系统,这个时候就要用到最大熵原则进行估计。

    所谓的最大熵原理其实就是指包含已知信息,不做任何未知假设,把未知事件当成等概率事件处理。


    接下来说说具体的求解过程。

N阶矩的概念

    统计学中的N阶矩的概念如上所示,变量X的幂次项的期望可以作为统计的特征值进行分析。

使用N阶矩向量来作为研究对象

    向量P(x)的组成是N阶矩,特征函数φx(t)是一个对复数e^itx求期望,然后进行泰勒展开,得到N阶矩的表达形式。任何概率分布都可以使用这个特征函数给表示出来,一个概率分布模型就对应一个特定的特征数,二者之间是一一对应的关系。

    也就是说可以通过求特征函数的方式来求出特定的概率分布模型,在泰勒展开式中的例子里面可以发现,特征函数是向量P(x)的线性表达形式,这也说明通过比较两个不同的数据集之间的向量P(X)是否相同就能得到背后的概率分布模型是否相同,不用计算出集体的概率分布模型,只用计算阶矩是否相同就行了。

    关于为什么特征函数能和概率分布模型一一对应的关系,首先求特征函数φ与对应模型的概率密度函数f(x)乘积的积分,然后概率分布模型的密度函数f(x)的傅里叶变换与φ共轭,也就是一一对应的关系,而密度函数与概率分布模型也是一一对应的关系,所以特征函数φ结合概率分布模型就通过密度函数作为桥梁实现了一一对应的关系。

两个概率模型相同

    我们的目标是让机器学习模型从给定的训练数据样本中总结出一个概率分布模型,这个模型能和真实环境下的概率分布模型相同,也就是能在真实环境下准确预测。这个相同就是通过比较二者的特征函数来实现,也就是比较N阶矩向量是否完全相同。

经验概率的含义

    经验概率就是在数据样本空间上采样得到的频率,使用满足某一个要求事件样本频率来近似替代概率。

目标概率

    机器学习模型的设计目标是使得在满足x的条件下,结论y的概率越大越好,在真实环境下输入某一个样本数据x,目标y的概率也就是机器学习模型的预测目标,这个也就是条件概率模型,根据贝叶斯公式变形成联合概率分布的形式。使用经验概率来近似替代联合概率。

机器学习模型目标

    将训练样本数据空间上的经验概率对应的概率分布模型作为真实模型的近似。对于未知的部分则使用最大熵原则,将其概率均分,作为未知数据样本的假设估计。

简化模型

    在求经验概率对应的分布模型时,如果概率分布模型复杂的话,需要一直计算考虑到N阶矩才能确定对应的概率分布。这个计算过程很复杂,为了简化就设计了一个随机变量Xm,当样本数据(x,y)满足某一个要求时就将函数值设计为1,其余情况均为0,m覆盖训练样本中所有可能出现的事件。

    在这样简化操作之和,Xm就是满足伯努利分布了,每一个事件对应的数学期望也就是其概率值。只用讨论1阶矩,也就是概率值期望便能归纳出对应的概率分布模型。

    对两个模型进行降维(降维后两个概率模型依旧一致),由于降维后的两个伯努利概率模型只有一阶矩不为零,可以产生一个条件用于后面的计算:降维后样本模型与目标模型的一阶矩相等。

条件熵的定义

    条件熵的定义是一个事件A在对应Xi的条件下,不同的Yi的概率值乘以信息熵的和,然后再把所有的事件A B C D………的系统熵叠加起来就是条件熵的定义。每一个事件ABCD就是对应一个样本数据,Xi就是输入值,Yi就是结果的分类。


最大条件熵

    经验概率值是根据训练数据样本得到的,是一个固定值,求出条件概率极值就能表示出最大熵了。

拉格朗日乘数法

转化为对偶问题,着重分析关于条件概率P的最值问题,通过求偏导数得到结果

条件熵最值结果

将指数项变成向量的乘法,η乘以f函数值。中间因为所以那一步,就是把分子项叠加求和就变化成分母项了。

最大熵与softmax之间的关系

在满足降维后样本模型与目标模型的一阶矩相等的条件后,可大胆的地将目标概率模型的条件熵转换公式用样本概率模型的经验概率替换,然后计算目标概率模型的条件熵最大值(即满足最大熵原理)

原理剖析

    当然现在是不会使用手动选择特征之类的去构建F(x,y)函数,直接使用多个隐藏层的神经网络自动去构建,这个文章推导的基本思路是机器学习模型的基本原则——最大熵原则的由来,以及与激活函数softmax之间的关系。


    在拉格朗日乘数法中,我们只推导了条件概率P的最值,用于确定概率分布模型的形式,关于具体的概率分布模型参数λ的最值则是通过神经网络梯度下降法来得到确定。

机器学习——最大熵的评论 (共 条)

分享到微博请遵守国家法律