EM算法及其推广---《统计学习方法》第9章

2023-10-29

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步求期望值，M步求最大值。
（EM算法是一种对模型参数的估计，该模型中含有隐变量）

EM算法的引入

EM算法

概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么就可以通过极大似然估计或贝叶斯估计法估计模型参数。但是，当模型中含有隐变量的时候，就不能简单的使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。
观测数据的似然函数：

P(Y|θ)=∑zP(z|θ)P(Y|z,θ) P ( Y | θ ) = ∑ z P ( z | θ ) P ( Y | z , θ )

Q(θ,θ(i))=Ez[logP(Y,Z|θ)|Y,θ(i)] Q ( θ , θ ( i ) ) = E z [ log ⁡ P ( Y , Z | θ ) | Y , θ ( i ) ]

EM算法的导出

EM算法是通过不断求解下界（对数似然函数的下界）的极大化逼近求解对数似然函数极大化的算法。

EM在非监督学习中的应用

EM算法可以用于生成模型的非监督学习。生成模型由联合概率分布P（X,Y）表示，可以认为非监督学习训练数据是联合概率分布产生的数据，X为观测数据，Y为未观测数据。

EM算法的收敛性

EM算法在高斯混合模型学习中的应用

EM算法的一个重要应用是高斯混合模型（Gaussian misture model, GMM）的参数估计。

EM算法的推广

F函数
GEM函数

相关问题总结

1.EM算法的由来/原理
我们面对一个含有隐变量的概率模型，目标是极大化观测数据（不完全数据）关于参数 θ θ 的对数似然函数，但是这一极大化的困难是在计算过程中有未观测数据并有包含和（或积分）的对数。那么EM算法通过迭代不断求解下界的极大化逼近求解对数似然函数极大化的算法。
2.算法的过程;
1）选择参数初值
2）E步：确定Q函数，也就是求出完全数据的对数自然函数关于在给定观测数据Y和当前参数下对未观测数据的条件概率分布 P(Z,Y|θ(i)) P ( Z , Y | θ ( i ) ) 的期望
3）M步:求Q函数的极大值，得出第i+1次迭代的参数的估计值。
4）重复2-3步直到收敛。
3.采用EM算法求解的模型有哪些？为什么不用牛顿法或者梯度下降法？
一般有混合高斯、协同过滤、k-means。算法一定会收敛，但是可能会收敛到局部最优。EM算法是一种非梯度下降算法，解决了梯度下降等优化方法的缺陷：求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦）。
4.用EM算法推导解释K-means：
k-means算法是高斯混合聚类在混合成分方差相等，且每个样本仅指派一个混合成分时候的特例。k-means中每个样本所属的类就可以看成是一个隐变量。
在E步中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数；在M步，重新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类中样本的均值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法