机器学习——损失函数与极大似然估计(2)
对于线性回归模型 y= wx + b ,在上一篇文章中提到了可以使用一维高斯分布N(u,σ2)的概率模型来作为在xi固定的情况下预测目标值yi的条件概率分布模型。在正态分布概率模型中,输出域为整个实数域,但是与二分类问题中输出的结果为0/1,如果依然想使用线性回归模型,可以使用一个映射函数将输出的结果从全体实数域映射到0/1上。
简单的情况下就是用阶跃函数即从0突然跳到1,复杂的情况就用光滑的映射函数sigmoid,一般认为0/1分类的两个类别结果同等重要,两边占有相同的权重,以0为分界,如果原始值小于0则映射结果分类为0,反之则为1,sigmoid函数值还可以作为分类预测的概率值大小。

回归模型由w和b来确定,加入η这个中间变量作为桥梁,进行映射到最终结果0/1上。

在这个分类模型中,中间的那条红线被称为决策边界,类似于SVM的那个决策超平面,这条决策边界有模型参数w和b来确定,与sigmoid函数无关,如果刚好在决策边界上的样本点计算得到的η值刚好是0,对应sigmoid值0.5,这个决策边界与sigmoid无关。
但是对于数据样本离决策边界比较近的时候,表示模型对应0/1分类的概率较低,也就是sigmoid函数值接近0.5,分类结果容易发生变化。
数据样本yi满足0/1分布,在xi固定的前提下对yi取样的分布满足伯努利分布模型B(p),其概率密度模型中的参数p为关于eta的sigmoid函数。
与之前的极大似然估计类似,针对现有的数据样本,最合适的线性回归模型也就是使得现有数据样本的联合概率分布最大。模型确定了决策边界也就随之确定了。
联合概率分布是连乘,取对数变成叠加,求最大值。B的概率密度函数为p^yi * (1-p)^(1-yi)

化简的过程中注意可以通过ln将-η变成+η,再取反得到最小值的式子。

在这篇中yi为什么能假设满足以sigmoid为参数的伯努利分布这是下一篇文章要解释的问题。