EM算法
EM算法最初用于缺失数据模型参数估计。 设模型中含Xobs和Xmis两个随机成分,含有联合密度函数或概率函数为f(xobs,xmis|theta), theta为未知参数, 称f(xobs,xmis|theta)为完全数据的密度,实际上我们只有Xobs的观测数据, Xobs=xobs, Xmis不能观测得到,这一部分可能是缺失数据,也可能是潜在影响因素。所以实际的似然函数为

这个似然函数比完全数据的似然函数复杂,所以很难直接通过这个似然函数求极大似然估计。
EM算法的想法是,已经有了参数的近似估计值θ^(t)后, 假设(Xobs,Xmis)近似服从密度f(xobs,xmis|θ^(t)), 这里Xobs=xobs已知,所以认为Xmis近似服从条件分布

在完全数据对数似然函数logf(Xobs,Xmis|θ)中,把Xobs=xobs看成已知,对未知部分xmis求期望得到θ的函数Q_t(θ),再求Q_t(θ)的最大值点作为下一个θ^(t+1).
EM算法每次迭代有如下E步(期望步)和M步(最大化步):
