机器学习——损失函数与极大似然估计(1)
2023-06-20 00:15 作者:Vector永远的神 | 我要投稿
在初始假设阶段,对于N个数据样本来说,能够进行分类预测地基础是其满足独立同分布的要求,能够使用同一个模型进行预测估计。
N个数据样本预测情况出现的结果都彼此独立,在当前数据集中他们同时出现,满足联合概率分布的定义,即单个数据样本预测的概率 连乘得到联合概率。
在预测模型的参数调整阶段,找到最合适的预测分类模型的条件就是使得联合概率分布最大,这个也就是极大似然估计的理论基础解释。
极大似然估计的核心思想是:认为当前发生的事件是概率最大的事件,就是当前已有给定的数据集中的x和y的对应关系认为是已发生的随机事件,训练确定模型中的参数,使得训练数据集上给定数据样本发生的联合概率最大。
首先以线性回归模型为例,这个模型大致可以归纳为三个基础假设:
数据样本x和 y之间存在着线性关系。
数据样本之间的残差(预测值——真实值)之间彼此独立“同分布”,即互不影响不存在随着时间变化之类的关系。
数据样本之间的残差满足高斯分布。

线性回归模型中,把常数b放入系数向量w中进行运算,简化标记。
假设xi固定,而yi不确定,把yi看作是对于xi的一个取样结果,由以下式子得到,后续项作为一个噪声,优秀的模型期望肯定是yi在wxi处取得的概率最大,刚好满足正态分布。此时xi和yi并不是联合概率的关系,由于xi确定可以把yi的取值视为条件概率。
这里的正态分布取样是一个假设,逻辑证明还不严谨,但是由此可以推导出损失函数。

在yi的抽样概率区间满足正态分布后,连乘即可得到整体样本数据集的联合概率,为了求最值,将其转化为对数函数不改变其单调性。




最小二乘法的损失函数是极大似然估计在正态分布下的特例。