最大似然估计【MLE】与最大后验概率【MAP】

2023-11-19

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。

但别急，我们先从概率和统计的区别讲起。

概率和统计是一个东西吗？

概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。

概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。举个例子，我想研究怎么养猪（模型是猪），我选好了想养的品种、喂养方式、猪棚的设计等等（选择参数），我想知道我养出来的猪大概能有多肥，肉质怎么样（预测结果）。

统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉，通过观察和判断，我确定这是猪肉（这就确定了模型。在实际研究中，也是通过观察数据推测模型是／像高斯分布的、指数分布的、拉普拉斯分布的等等），然后，可以进一步研究，判定这猪的品种、这是圈养猪还是跑山猪还是网易猪，等等（推测模型参数）。

一句话总结：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

显然，本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢？这需要理解贝叶斯思想。我们来看看贝叶斯公式。

贝叶斯公式到底在说什么？

学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes’ Theorem)：

P(A|B)=P(B|A)P(A)P(B) 【式1】

贝叶斯公式看起来很简单，无非是倒了倒条件概率和联合概率的公式。

把B展开，可以写成：

P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|∼A)P(∼A) 【式2】（∼A表示”非A”）

这个式子就很有意思了。

想想这个情况。一辆汽车（或者电瓶车）的警报响了，你通常是什么反应？有小偷？撞车了？不。。你通常什么反应都没有。因为汽车警报响一响实在是太正常了！每天都要发生好多次。本来，汽车警报设置的功能是，出现了异常情况，需要人关注。然而，由于虚警实在是太多，人们渐渐不相信警报的功能了。

贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust the evidence）

我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”，B计作“警报响了”，带进贝叶斯公式里看。我们想求等式左边发生A|B的概率，这是在说警报响了，汽车也确实被砸了。汽车被砸引起（trigger）警报响，即B|A。但是，也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因（统统计作∼A），其他原因引起汽车警报响了，即B|∼A。那么，现在突然听见警报响了，这时汽车已经被砸了的概率是多少呢（这即是说，警报响这个证据有了，多大把握能相信它确实是在报警说汽车被砸了）？想一想，应当这样来计算。用警报响起、汽车也被砸了这事件的数量，除以响警报事件的数量（这即【式1】）。进一步展开，即警报响起、汽车也被砸了的事件的数量，除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量（这即【式2】）。

可能有点绕，请稍稍想一想。

再思考【式2】。想让P(A|B)=1，即警报响了，汽车一定被砸了，该怎么做呢？让P(B|∼A)P(∼A)=0即可。很容易想清楚，假若让P(∼A)=0，即杜绝了汽车被球踢、被行人碰到等等其他所有情况，那自然，警报响了，只剩下一种可能——汽车被砸了。这即是提高了响警报这个证据的说服力。

从这个角度总结贝叶斯公式：做判断的时候，要考虑所有的因素。老板骂你，不一定是你把什么工作搞砸了，可能只是他今天出门前和太太吵了一架。

从这个角度思考贝叶斯公式：一个本来就难以发生的事情，就算出现某个证据和他强烈相关，也要谨慎。证据很可能来自别的虽然不是很相关，但发生概率较高的事情。发现刚才写的代码编译报错，可是我今天状态特别好，这语言我也很熟悉，犯错的概率很低。因此觉得是编译器出错了。 ————别，还是先再检查下自己的代码吧。

好了好了，说了这么多，下面言归正传，说一说MLE。

——————不行，还得先说似然函数（likelihood function）

似然函数

似然（likelihood）这个词其实和概率（probability）是差不多的意思，Colins字典这么解释：The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability，这解释也读得通。但是在统计里面，似然函数和概率函数却是两个不同的概念（其实也很相近就是了）。

对于这个函数：

P(x|θ)

输入有两个：x表示某一个具体的数据；θ表示模型的参数。

如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。

如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如，f(x,y)=xy, 即x的y次方。如果x是已知确定的(例如x=2)，这就是f(y)=2y, 这是指数函数。如果y是已知确定的(例如y=2)，这就是f(x)=x2，这是二次函数。同一个数学形式，从不同的变量角度观察，可以有不同的名字。

这么说应该清楚了吧？如果还没讲清楚，别急，下文会有具体例子。

现在真要先讲讲MLE了。。

最大似然估计（MLE）

假设有一个造币厂生产某种硬币，现在我们拿到了一枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反面出现的概率（记为θ）各是多少？

这是一个统计问题，回想一下，解决统计问题需要什么？数据！

于是我们拿这枚硬币抛了10次，得到的数据（x0）是：反正正正正反正正正反。我们想求的正面概率θ是模型参数，而抛硬币模型我们可以假设是二项分布。

那么，出现实验结果x0（即反正正正正反正正正反）的似然函数是多少呢？

f(x0,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ7(1−θ)3=f(θ)

注意，这是个只关于θ的函数。而最大似然估计，顾名思义，就是要最大化这个函数。我们可以画出f(θ)的图像：

likeli

可以看出，在θ=0.7时，似然函数取得最大值。

这样，我们已经完成了对θ的最大似然估计。即，抛10次硬币，发现7次硬币正面向上，最大似然估计认为正面向上的概率是0.7。（ummm..这非常直观合理，对吧？）

且慢，一些人可能会说，硬币一般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信θ=0.7。

这里就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引入了最大后验概率估计。

最大后验概率估计

最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。最大后验概率估计则是想求θ使P(x0|θ)P(θ)最大。求得的θ不单单让似然函数大，θ自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

对于投硬币的例子来看，我们认为（”先验地知道“）θ取0.5的概率很大，取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识，例如假设P(θ)为均值0.5，方差0.1的高斯函数，如下图：

ptheta

则P(x0|θ)P(θ)的函数图像为：

map1

注意，此时函数取最大值时，θ取值已向左偏移，不再是0.7。实际上，在θ=0.558时函数取得了最大值。即，用最大后验概率估计，得到θ=0.558

最后，那要怎样才能说服一个贝叶斯派相信θ=0.7呢？你得多做点实验。。

如果做了1000次实验，其中700次都是正面向上，这时似然函数为:

likeli2

如果仍然假设P(θ)为均值0.5，方差0.1的高斯函数，P(x0|θ)P(θ)的函数图像为：

map2

在θ=0.696处，P(x0|θ)P(θ)取得最大值。

这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把θ估计在0.7附近了。

PS. 要是遇上了顽固的贝叶斯派，认为P(θ=0.5)=1 ，那就没得玩了。。无论怎么做实验，使用MAP估计出来都是θ=0.5。这也说明，一个合理的先验概率假设是很重要的。（通常，先验概率能从数据中直接分析得到）

最大似然估计和最大后验概率估计的区别

相信读完上文，MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

最大似然估计【MLE】与最大后验概率【MAP】的相关文章

vue的指令

Vue 的指令一 Vue 的指令 1 指令的概念指令 Directives 是 vue 为开发者提供的模板语法用于辅助开发者渲染页面的基本结构 vue 中的指令按照不同的用途可以分为如下 6 大类内容渲染指令属性绑定指令事件绑定
SQL 查询指定行数的数据。

今天遇到一个关于查询指定行数的数据的sql查询语句问题突然发现以前没怎么接触过刚才想起来了赶紧看了下文档又上网搜了下有了下面的东西不知道有没有什么地方不对 oracle 先看一下文档中关于any和all的例子很不错噢 An
Pytorch 深度强化学习模型训练速度慢

最近一直在用Pytorch来训练深度强化学习模型但是速度一直很慢 Gpu利用率也很低一起初开始在训练参数 batch size 200 graph size 40 epoch size 100000 训练速度一个epoch要4h 人麻

随机推荐

node学习openai库入门及使用（一）

第一章 node学习openai库入门及使用一文章目录第一章 node学习openai库入门及使用一前言一 node js的openai库是什么二使用步骤 1 引入库 2 发送请求总结前言众所周知目前chatgpt已
cuda8.0使用nvcc编译程序出现warning:The 'compute_20', 'sm_20', and 'sm_21' architectures are deprecated的解决办法

初学CUDA 使用的NVIDIA显卡是Tesla K80 安装的是cuda8 0 写了一个简单的测试程序使用nvcc编译指令如下 nvcc cudaPrintDeviceInfo cu o cudaPrintDeviceInfo 本以为
docker快速学习--docker compose服务编排--06

一服务编排 1 1 概念按照一定的业务规则批量管理容器 1 3 问题微服务架构的应用系统中一般包含若干个微服务每个微服务一般都会部署多个实例如果每个微服务都要手动启停维护的工作量会很大 1 要从Dockerfile build
go踩坑——no required module provides package go.mod file not found in current directory or any parent

背景准备运行下面代码 package main import github com gin gonic gin func main 创建一个默认的路由引擎 r gin Default GET 请求方式 hello 请求的路径当客户端以G
C++实现复数类

主要还是练习封装做一个demo 下一步会实现string类 include
ECCV 2022

作者丨人脸人体重建来源丨人脸人体重建编辑丨极市平台极市导读本文围绕3D人脸重建的评估方式进行了重新的思考和探索作者团队通过构建新数据集RELAY 囊括了更丰富以及更高质量的脸部区域信息并借助新的流程对先前的数十个重建算法 3DM
题解模板

题目链接题目描述输入描述输出描述示例1 输入输出示例2 输入输出说明解决思路总结结论已知条件思路里程实现过程代码
一些大厂的开源平台

百度 http fex baidu com http efe baidu com 饿了么 https fe ele me 腾讯 http www alloyteam com 美团 https tech meituan com 滴滴 http
mongodb按照字段模糊查询方法

数据库直接查询 db student find name regex jack options i db student find name regex jack i db student find name jack i 开源组件使用 g
随手写系列——写一个凯撒密码转换页面

文章目录先展示效果 H5编写 C3编写 JS编写方法一过程版 JS编写方法二对象版代码获取先展示效果因为主要是实现功能所以CSS写的很粗糙 H5编写基础结构如下先构成最外面的大盒子 box 然后 inner gt p装
Python 3 Thread 模块的学习理解

一概述 Thread 类描绘了一个单独运行的控制线程活动有两种方式指定这种活动通过一个可调用对象的构造函数或者通过覆盖子类run 方法没有其他的方法应在子类中重写换句话说只有推翻这个类的 init 和run 方法一旦Thre
斐波那契数列——UPC

题目描述斐波那契数列F满足如下性质 F1 1 F2 2 Fi 2 Fi 1 Fi 对于一个正整数n 它可以表示成一些不同的斐波那契数列中的数的和你需要求出有多少种不同的方式可以表示出n 输入输入有多组数据第一行为一个整数T 表示数
c/c++内存管理

1 c c内存分布 int globalVar 1 static int staticGlobalVar 1 void Test static int staticVar 1 int localVar 1 int num1 10 1 2 3
CSharp之接口（Interface）

接口通过Interface关键字修饰接口是抽象类的一个实例当抽象类中所有的方法全部为抽象方法时这个抽象类可以称为接口接口不能被实例化接口中的方法没有方法体只能包含方法的声明并且所有方法成员是公有的 public 接口中成员不能
Web 应用程序安全测试

Web 应用程序安全测试 4 0 引言和目标 4 1 信息收集 4 2 配置和部署管理测试 4 3 身份管理测试 4 4 认证测试 4 5 授权测试 4 6 会话管理测试 4 7 输入验证测试 4 8 错误处理测试 4 9 弱口令测试 4
查看Linux系统版本的命令（2种方法）

一查看Linux系统版本的命令 2种方法 1 lsb release a 即可列出所有版本信息这个命令适用于所有的Linux发行版包括RedHat SUSE Debian 等发行版 2 cat etc redhat release 这
【华为OD机试真题2023B卷 JAVA&JS】字符串分割

华为OD2023 B卷机试题库全覆盖刷题指南点这里字符串分割时间限制 3秒内存限制 262144K 语言限制不限题目描述给定非空字符串s 将该字符串分割成一些子串使每个子串的ASCII码值的和均为水仙花数 1 若分割不成功
4.函数、模块与包

文章目录一函数二模块与包引用一函数 Python 使用 def 关键字来声明函数格式如下所示 def 函数名参数函数体 return 返回值如果要定义一个无任何功能的空函数函数体只写 pass 即可 def 函数名
element组件库中tab表格利用cellStyle方法单独改变单元格样式

公司项目中已经封装了一个公共的tab组件新的需求需要对表格中特定的单元格字体颜色做改变查询了官方文档发现有cellStyle这个属性在公共组件中加了标签属性一开始是使用 emit方法触发父传子使用该表格是自定义该事件但是样式不生
最大似然估计【MLE】与最大后验概率【MAP】

最大似然估计 Maximum likelihood estimation 简称MLE 和最大后验概率估计 Maximum a posteriori estimation 简称MAP 是很常用的两种参数估计方法如果不理解这两种方法的思路很