浙江大学-研究生机器学习课程-

P42 概率分类法概述
1、概率分类基本框架

2、对上图公式的详细解释

同时指出,神经网络忽略考虑样本的先验概率。比如检测你是否患了癌症,如果在神经网络训练时是/不是两类label的样本各有一半,那这个先验概率就是0.5.则p(患有癌症
|你的检测结果)可以看作是考虑了先验概率,否则就是没有考虑。但现实中患有癌症的label样本不会和正常样本的label数量一样,所以需要引入先验概率,在样本类别数不一致时要考虑先验概率。
3、引出问题:如何做概率密度的估计。即有了一堆样本,如何算他们的先验概率。

P42 概率密度估计的三个办法
1、朴素贝叶斯概率密度估计
首先是朴素贝叶斯的限制条件

然后是垃圾邮件分类问题的数学表示

下面解释怎么求p(d|C)

下图右下角是根据概率计算判别的公式

如果测试样本中有一个词,他不曾出现在任何一个训练样本中。那么p(d|C)不管是c1、c2,都是0。
因为你看p(Wi=不曾出现|C)=0,那么连乘的结果就是0呗。
那么解决办法就是改造公式。左下角公式分子+1,分母加上W的模,这样一来不曾出现的p(w|C)=1/v的模。就不等于0了。

2、高斯概率密度估计
先看简单的x是一维的情况

胡老师推导x是多维的情况。假设x是多维高斯分布

接下来要做的事就是最大化E(μ,∑)。因为你最大化似然函数,才能得到那个最符合样本分布的高斯分布曲线嘛。就好比先射击再画靶,样本就是射击,求分布就是在样本上画靶子。


直接求偏∑不好求,这里做-1。

本节最后总结求x高斯概率密度估计的一般步骤

在第二步之后,这个优化函数往往是无法直接求导得到最优参数的,就需要使用梯度下降的方法。其中一个需要使用梯度下降等方法求偏导的高斯模型叫混合高斯模型。
第一步

第二步

此时的损失函数就很复杂,求偏导比较困难,可以用这三个算法求高斯混合模型。

P45 EM算法
1、
板书上节课混合高斯模型的具体形式

定义极大似然法的目标函数,本来是最大化这个E,但在优化理论中一般是最小化目标函数,我们就给目标函数取负号

指出该问题是非凸问题,只能求局部极值。

对比三种求局部极值算法,最常用的梯度下降,快要退出舞台的基因算法,模拟退火算法,只能适应部分求局部极值问题的EM算法。

详细解释什么样的问题可以用EM算法

第一种
因为最小化函数的目的是求高斯分布的μ和∑,即高斯分布本身,由样本点推导出μ、∑是鸡生蛋,蛋就是μ、∑,鸡是样本点。
所以先假设样本点是哪一类,然后去求蛋。
第二种
直接假设μ、∑的值,即先有蛋,然后去看鸡。

软判决

高斯混合模型的EM算法过程

重点要理解式②,然后第三步是重新估计所有的参数


然后回到2,再次估计,直到收敛

下面时间讲另一个EM算法的例子
2、K-均值聚类
如何让机器自动聚类?

在这里要先假设要聚为几类,类别是K

若知道某类样本中心,自然就可以估计样本的类,但我们不知道这个中心μ。若知道样本的类,就可以计算出样本的中心,但我们不知道样本的类。所以这又是一个鸡/蛋问题。
以下是K-均值算法步骤

证明上述算法可收敛,证明在右下角。

K均值经常用在压缩数据的场景中。
P48 EM算法的收敛性证明