机器学习

2023-10-26

学习目标：

了解什么是EM算法
知道极大似然估计
知道EM算法实现流程

一、初识EM算法

EM算法也称期望最大化（Expectation-Maximum,简称EM）算法。

它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）等等。

EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，

其中一个为期望步（E步），
另一个为极大步（M步），

所以算法被称为EM算法（Expectation-Maximization Algorithm）。

EM算法受到缺失思想影响，最初是为了解决数据缺失情况下的参数估计问题，其算法基础和收敛有效性等问题在

Dempster、Laird和Rubin三人于1977年所做的文章《Maximum likelihood from incomplete data via the EM algorithm》

中给出了详细的阐述。其基本思想是：

首先根据已经给出的观测数据，估计出模型参数的值；
然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前已经观测到的数据重新再对参数值进行估计；
然后反复迭代，直至最后收敛，迭代结束。

EM算法计算流程：

二、EM算法介绍

想清晰的了解EM算法，我们需要知道一个基础知识：

“极大似然估计

1 极大似然估计

1.1 问题描述

假如我们需要调查学校的男生和女生的身高分布，我们抽取100个男生和100个女生，将他们按性别划分为两组。

然后，统计抽样得到100个男生的身高数据和100个女生的身高数据。

如果我们知道他们的身高服从正态分布，但是这个分布的均值μ 和方差δ 是不知道，这两个参数就是我们需要估计的。

问题：我们知道样本所服从的概率分布模型和一些样本，我们需要求解该模型的参数。

我们已知的条件有两个：

样本服从的分布模型
随机抽取的样本。

我们需要求解模型的参数。

根据已知条件，通过极大似然估计，求出未知参数。

总的来说：极大似然估计就是用来估计模型参数的统计学方法。

1.2 用数学知识解决现实问题

问题数学化：

样本集
概率密度是：

抽到第i个男生身高的概率。

由于100个样本之间独立同分布，所以同时抽到这100个男生的概率是它们各自概率的乘积，也就是样本集X中各个样本的联合概率，用下式表示：

这个概率反映了在概率密度函数的参数是θ时，得到X这组样本的概率。
我们需要找到一个参数θ，使得抽到X这组样本的概率最大，也就是说需要其对应的似然函数L(θ)最大。

满足条件的θ叫做θ的最大似然估计值，记为：

1.3 最大似然函数估计值的求解步骤

首先，写出似然函数：

其次，对似然函数取对数：

然后，对上式求导，令导数为0，得到似然方程。
最后，解似然方程，得到的参数值即为所求。

多数情况下，我们是根据已知条件来推算结果，而极大似然估计是已知结果，寻求使该结果出现的可能性最大的条件，以此作为估计值。

2 EM算法实例描述

我们目前有100个男生和100个女生的身高，但是我们不知道这200个数据中哪个是男生的身高，哪个是女生的身高，即抽取得到的每个样本都不知道是从哪个分布中抽取的。

这个时候，对于每个样本，就有两个未知量需要估计：

（1）这个身高数据是来自于男生数据集合还是来自于女生？

（2）男生、女生身高数据集的正态分布的参数分别是多少？

具体问题如下图：

对于具体的身高问题使用EM算法求解步骤如下：

（1）初始化参数：先初始化男生身高的正态分布的参数：如均值=1.65，方差=0.15；

（2）计算分布：计算每一个人更可能属于男生分布或者女生分布；

（3）重新估计参数：通过分为男生的n个人来重新估计男生身高分布的参数（最大似然估计），女生分布也按照相同的方式估计出来，更新分布。

（4）这时候两个分布的概率也变了，然后重复步骤（1）至（3），直到参数不发生变化为止。

3 EM算法流程

输入：

n个样本观察数据

) ，未观察到的隐含数据 )

联合分布

) ，条件分布

) ，最大迭代次数J。

算法步骤：

1）随机初始化模型参数θ的初值

2）j = 1, 2, ..., J开始EM算法迭代：

E步：计算联合分布的条件概率期望：

M步：极大化

) ,得到

如果

已经收敛，则算法结束。否则继续进行E步和M步进行迭代。

输出：模型参数θ。

三、EM算法实例

1 一个超级简单的案例

假设现在有两枚硬币1和2，,随机抛掷后正面朝上概率分别为P1，P2。为了估计这两个概率，做实验，每次取一枚硬币，连掷5下，记录下结果，如下：

可以很容易地估计出P1和P2，如下：

P1 = （3+1+2）/ 15 = 0.4 P2= （2+3）/10 = 0.5

到这里，一切似乎很美好，下面我们加大难度。

2 加入隐变量z后的求解

还是上面的问题，现在我们抹去每轮投掷时使用的硬币标记，如下：

好了，现在我们的目标没变，还是估计P1和P2，要怎么做呢？

显然，此时我们多了一个隐变量z，可以把它认为是一个5维的向量（z1,z2,z3,z4,z5)，代表每次投掷时所使用的硬币，比如z1，就代表第一轮投掷时使用的硬币是1还是2。但是，这个变量z不知道，就无法去估计P1和P2，所以，我们必须先估计出z，然后才能进一步估计P1和P2。

但要估计z，我们又得知道P1和P2，这样我们才能用最大似然概率法则去估计z，这不是鸡生蛋和蛋生鸡的问题吗，如何破？

答案就是先随机初始化一个P1和P2，用它来估计z，然后基于z，还是按照最大似然概率法则去估计新的P1和P2，如果新的P1和P2和我们初始化的P1和P2一样，请问这说明了什么？（此处思考1分钟）

这说明我们初始化的P1和P2是一个相当靠谱的估计！

就是说，我们初始化的P1和P2，按照最大似然概率就可以估计出z，然后基于z，按照最大似然概率可以反过来估计出P1和P2，当与我们初始化的P1和P2一样时，说明是P1和P2很有可能就是真实的值。这里面包含了两个交互的最大似然估计。

如果新估计出来的P1和P2和我们初始化的值差别很大，怎么办呢？就是继续用新的P1和P2迭代，直至收敛。

这就是下面的EM初级版。

2.1 EM初级版

我们不妨这样，先随便给P1和P2赋一个值，比如：

P1 = 0.2
P2 = 0.7

然后，我们看看第一轮抛掷最可能是哪个硬币。

如果是硬币1，得出3正2反的概率为 0.2 ∗ 0.2 ∗ 0.2 ∗ 0.8 ∗ 0.8 = 0.00512
如果是硬币2，得出3正2反的概率为0.7 ∗ 0.7 ∗ 0.7 ∗ 0.3 ∗ 0.3 = 0.03087

然后依次求出其他4轮中的相应概率。做成表格如下：

按照最大似然法则：

第1轮中最有可能的是硬币2
第2轮中最有可能的是硬币1
第3轮中最有可能的是硬币1
第4轮中最有可能的是硬币2
第5轮中最有可能的是硬币1

我们就把上面的值作为z的估计值。然后按照最大似然概率法则来估计新的P1和P2。

P1 = （2+1+2）/15 = 0.33
P2=（3+3）/10 = 0.6

设想我们是全知的神，知道每轮抛掷时的硬币就是如本文第001部分标示的那样，那么，P1和P2的最大似然估计就是0.4和0.5（下文中将这两个值称为P1和P2的真实值）。那么对比下我们初始化的P1和P2和新估计出的P1和P2：

看到没？我们估计的P1和P2相比于它们的初始值，更接近它们的真实值了！

可以期待，我们继续按照上面的思路，用估计出的P1和P2再来估计z，再用z来估计新的P1和P2，反复迭代下去，就可以最终得到P1 = 0.4，P2=0.5，此时无论怎样迭代，P1和P2的值都会保持0.4和0.5不变，于是乎，我们就找到了P1和P2的最大似然估计。

这里有两个问题：

1、新估计出的P1和P2一定会更接近真实的P1和P2？

答案是：没错，一定会更接近真实的P1和P2，数学可以证明，但这超出了本文的主题，请参阅其他书籍或文章。

2、迭代一定会收敛到真实的P1和P2吗？

答案是：不一定，取决于P1和P2的初始化值，上面我们之所以能收敛到P1和P2，是因为我们幸运地找到了好的初始化值。

2.2 EM进阶版

下面，我们思考下，上面的方法还有没有改进的余地？

我们是用最大似然概率法则估计出的z值，然后再用z值按照最大似然概率法则估计新的P1和P2。也就是说，我们使用了一个最可能的z值，而不是所有可能的z值。

如果考虑所有可能的z值，对每一个z值都估计出一个新的P1和P2，将每一个z值概率大小作为权重，将所有新的P1和P2分别加权相加，这样的P1和P2应该会更好一些。

所有的z值有多少个呢？

显然，有2 = 32种，需要我们进行32次估值？？

不需要，我们可以用期望来简化运算。

利用上面这个表，我们可以算出每轮抛掷中使用硬币1或者使用硬币2的概率。

比如第1轮，使用硬币1的概率是：

0.00512/(0.00512 + 0.03087) = 0.14

使用硬币2的概率是1-0.14=0.86

依次可以算出其他4轮的概率，如下：

上表中的右两列表示期望值。看第一行，0.86表示，从期望的⻆度看，这轮抛掷使用硬币2的概率是0.86。相比于前面的方法，我们按照最大似然概率，直接将第1轮估计为用的硬币2，此时的我们更加谨慎，我们只说，有0.14的概率是硬币1，有0.86的概率是硬币2，不再是非此即彼。这样我们在估计P1或者P2时，就可以用上全部的数据，而不是部分的数据，显然这样会更好一些。

这一步，我们实际上是估计出了z的概率分布，这步被称作E步。

结合下表：

我们按照期望最⼤似然概率的法则来估计新的P1和P2：

以P1估计为例，第1轮的3正2反相当于

0.14*3=0.42正
0.14*2=0.28反

依次算出其他四轮，列表如下：

P1=4.22/(4.22+7.98)=0.35

可以看到，改变了z值的估计方法后，新估计出的P1要更加接近0.4。原因就是我们使用了所有抛掷的数据，而不是之前只使用了部分的数据。

这步中，我们根据E步中求出的z的概率分布，依据最大似然概率法则去估计P1和P2，被称作M步。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习的相关文章

打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
LeetCode解法汇总82. 删除排序链表中的重复元素 II

目录链接力扣编程题解法汇总分享记录 CSDN博客 GitHub同步刷题项目 https github com September26 java algorithms 原题链接力扣 LeetCode 描述给定一个已排序的链表的头
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
「优选算法刷题」：移动零

嗨这个假期罗根开始接触了算法在为今年的蓝桥杯做准备所以开个新专栏记录记录自己做算法题时的心得一题目给定一个数组 nums 编写一个函数将所有 0 移动到数组的末尾同时保持非零元素的相对顺序请注意必须在不复制数组的情况下
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
高精度运算合集，加减乘除，快速幂，详细代码，OJ链接

文章目录零前言一加法高精度加法步骤 P1601 A B 二减法高精度减法步骤
【算法】使用BFS算法（队列、哈希等）解决最短路径问题（C++）

文章目录 1 前言 1 1 什么是最短路问题 1 1 1 什么是权值 1 2 如何解决此类最短路径 1 3 BFS解最短路径前提 FloodFill 洪流问题 2 算法题

随机推荐

万字长文深度剖析AIGC技术！（网络架构&自监督）

作者派派星编辑 CVHub 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群前景回顾 Welcome to back 在万字长文带你解读AIGC入门篇一文中我们详
计算机网络生活应用,浅谈计算机网络在生活中的应用

摘要进入21世纪科技高速发展特别是计算机网络的进一步发展计算机的应用更为普遍计算机网络的应用已经渗透到社会的各个领域正在日益改变着传统的工作学习和生活的方式推动着社会的科技发展资源的共享通信这两种计算机网络最基本的功能在
elementUI的表格多选功能之规定禁止选择

elementUI的el table表格多选功能之禁用多选在进行表格的多选的时候我们会碰到那种只允许部分内容可以被选择不符合的要禁用多选框这个时候就要用到elementUI el table的selectable 所以我们可以这样写
mysql导入sql文件、数据库时报错ERROR: ASCII '\0' appeared in the statement

window环境下mysql导入sql文件时报错 ERROR ASCII 0 appeared in the statement 错误原因文件编码不正确解决办法下载UltraEdia对文件进行转码如果是使用powershell导出的
计算机网络笔记整理2——物理层

点此链接可跳转到计算机网络笔记整理目录索引页参考书籍计算机网络第八版谢希仁编著文章目录点此链接可跳转到计算机网络笔记整理目录索引页物理层的基本概念物理层接口的基本特性数据通信的基础知识信道的极限容量信道能够通过
AODV协议概述

AODV是由Nokia研究中心的Charles E Perkins和加利福尼亚大学Santa Barbara的Elizabeth M Belding Roryer以及Cincinnati大学Samir R Das等共同开发已经被 IETF
JDBC总结

JDBC 规范 Java DataBase Connectivity 标题 JDK 提供 Java链接数据库的规范采用JDBC访问数据库的基本步骤 A 载入JDBC驱动程序 B 定义连接URL C 建立连接 D 创建Statement对象
光纤工程的接续、施工与测试技术规范及要点

1 光纤接续 1 光纤接续光纤接续应遵循的原则是芯数相等时要同束管内的对应色光纤对接芯数不同时按顺序先接芯数大的再接芯数小的 2 光纤接续的方法有熔接活动连接机械连接三种在工程中大都采用熔接法采用这种熔接方法的接点损耗
【Unity研究】进程、线程、对象池的关系

目录简要概括名词解释实例进程线程对象池实际使用对象池实际操作含代码建立主线程以外的线程方法在主线程中运行的生命周期在副线程中运行的生命周期简要概括正在运行的Unity游戏就可以看做一个进程的实例线程是进程内的执
一种信息系统免疫安全防护架构

摘要随着网络的快速发展各类社会活动的信息化日益普及但是网络安全威胁也更加复杂多变使得信息系统处于安全威胁风险极高的环境中严重威胁信息的共享和获取针对核心信息系统的安全防护提出了一种信息系统免疫安全防护架构针对信息系统高可用
c语言水仙花数

水仙花数是指一个N位正整数 N 3 它的每个位上的数字的N次幂之和等于它本身本题要求编写程序计算所有N位水仙花数输入格式输入在一行中给出一个正整数N 3 N 7 输出格式按递增顺序输出所有N位水仙花数每个数字占一行输入样例 3
mysql数据库设置远程连接权限，执行grant all privileges on *.* to 'root'@'%' identified by '密码' with grant optio报错

mysql数据库设置远程连接权限执行grant all privileges on to root identified by 密码 with grant optio报错 ERROR 1558 HY000 Column count of
华为OD机试 - 字符个数统计（C++ & Java & JS & Python）

目录描述输入描述输出描述示例1 示例2 C python Java 描述编写一个函数计算字符
linux AIO （异步IO）那点事儿

在高性能的服务器编程中 IO 模型理所当然的是重中之重需要谨慎选型的对于网络套接字我们可以采用epoll 的方式来轮询尽管epoll也有一些缺陷但总体来说还是很高效的尤其来大量套接字的场景下但对于Regular File 来说
机器学习中的方差与偏差

方差与偏差的定义方差不同的训练数据集训练出的模型输出值之间的差异偏差用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异方差与偏差的数学公式首先以回归为例模型的期望预测指针对不同数据集D 模型对样
（三）STM32基础——GPIO介绍

目录 GPIO简介 GPIO基本结构 GPIO位结构输入部分输出部分推挽输出模式开漏输出编辑开漏复用输出编辑八种输入输出模式浮空上拉下拉输入编辑模拟输入开漏推挽输出复用开漏复用推挽输出 GPIO寄存器 GP
【Spark ML】第 3 章：监督学习

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
【论文精读】The Missing Link: Finding label relations across datasets

一背景概要和之前其他论文工作不同的是论文的主要目的是探究不同数据集间标签的关系而不是将其合并论文中提到的关系是identity parent child overlap 为了探究这些关系提出了几种方法基于language 基
一文实现：在python中调用matlab程序，保姆级安装windows环境下的matlab.engine教程

一前言我最近在做一个基于图像融合的目标检测工程我经常用matlab去研究和创新新型的图像融合算法因为matlab有着python所不可比拟的数据可视化功能和大量的滤波分解框架包在目标检测等涉及到神经网络的程序编写上 python又
机器学习

学习目标了解什么是EM算法知道极大似然估计知道EM算法实现流程一初识EM算法 EM算法也称期望最大化 Expectation Maximum 简称EM 算法它是一个基础算法是很多机器学习领域算法的基础比如隐式马尔科夫算法 H