伯努利分布的最大似然估计

2023-11-14

前言

昨天晚上参加阿里巴巴的实习面试，各种被虐。面试了将近90分钟，才做了3个题，加上项目的介绍。在机器学习方面，问到了一个伯努利分布的最大似然估计的推导，想到逻辑回归的推导就是利用最大似然估计，然后就套用了其推导过程。可能前面被说的有点迷糊了，导致最后也没有完整的推导出来，最失败的一次面试了。

对于阿里的暑期实习面试，其实问得内容还是都比较基础的。准备了很多关于特征工程、集成学习等内容，结果都没有考察到。反而被考的基础知识没有准备的比较清楚。这里对伯努利分布以及其最大似然估计做了一个详细的推导，其它的概率模型可以套用该模版。

祝看到此文章的小伙伴都能找到好的工作…

伯努利分布

伯努利分布，又名0-1分布，是一个离散概率分布。典型的示例是抛一个比较特殊的硬币，每次抛硬币只有两种结果，正面和负面。抛出硬币正面的概率为 p p p ，抛出负面的概率则为 1 − p 1-p 1−p 。因此，对于随机变量 X X X ，则有：

f ( X = 1 ) = p f ( X = 0 ) = 1 − p \begin{aligned} f(X=1) & = p \\ f(X=0) & =1-p \end{aligned} f(X=1)f(X=0)=p=1−p

由于随机变量 X X X 只有 0 和 1 两个值， X X X 的概率分布函数可写为：
(1) f ( X ) = p x ( 1 − p ) 1 − x 0 < p < 1 f(X)=p^x(1-p)^{1-x}\qquad\text{$0<p<1$}\tag{1} f(X)=px(1−p)1−x0<p<1(1)

数学期望

在概率论和统计学中，数学期望（或均值）是试验中每次可能结果的概率乘以其结果的总和。它反映了随机变量平均取值的大小。

离散型

离散型随机变量 X X X 的数学期望为一切可能的取值 x i x_i xi 与对应的概率 p ( x i ) p(x_i) p(xi) 的乘积之和，即如果随机变量的取值为集合 { x 1 , x 2 , ⋯   , x n } \lbrace x_1,x_2,\cdots, x_n \rbrace {x1,x2,⋯,xn} ，每个取值对应的概率为 { p ( x 1 ) , p ( x 2 ) , ⋯   , p ( x n ) } \lbrace p(x_1),p(x_2),\cdots, p(x_n) \rbrace {p(x1),p(x2),⋯,p(xn)} ，则有：
(2) E ( X ) = ∑ i = 1 n x n p ( x n ) E(X) =\sum_{i=1}^{n}x_np(x_n) \tag{2} E(X)=i=1∑nxnp(xn)(2)
因此，对于伯努利分布，其数学期望为：
E ( X ) = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E(X)=1\cdot p + 0\cdot (1-p)=p E(X)=1⋅p+0⋅(1−p)=p
对于随机变量 X X X ，其方差和数学期望的公式满足：
(3) V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( x 2 ) − [ E ( x ) ] 2 Var(X)=E((X-E(X))^2)=E(x^2)-[E(x)]^2\tag{3} Var(X)=E((X−E(X))2)=E(x2)−[E(x)]2(3)

一个随机变量的方差就是衡量随机变量和其数学期望之间的偏离程度。

公式推导如下：
V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 − 2 X ⋅ E ( X ) + [ E ( X ) ] 2 ) = E ( X 2 ) − 2 ⋅ E ( X ) ⋅ E ( X ) + [ E ( X ) ] 2 = E ( X 2 ) − [ E ( X ) ] 2 \begin{aligned} Var(X)&=E((X-E(X))^2)\\ &=E(X^2-2X\cdot E(X)+[E(X)]^2)\\ &=E(X^2)-2\cdot E(X) \cdot E(X) + [E(X)]^2\\ &=E(X^2)-[E(X)]^2 \end{aligned} Var(X)=E((X−E(X))2)=E(X2−2X⋅E(X)+[E(X)]2)=E(X2)−2⋅E(X)⋅E(X)+[E(X)]2=E(X2)−[E(X)]2
对于伯努利分布，有 E ( X 2 ) = E ( X ) E(X^2)=E(X) E(X2)=E(X) 。因此，其方差为：
V a r ( X ) = p − p 2 = p ( 1 − p ) Var(X)=p-p^2=p(1-p) Var(X)=p−p2=p(1−p)

最大似然估计

在统计学中，最大似然估计（MLE），也称为极大似然估计，是用来估计一个概率模型的参数的方法。其目的就是：利用已知的样本结果，反推最有可能导致这样结果的参数值。

由于样本集中的样本都是独立同分布，现以伯努利分布来推导其参数 p p p 最大似然估计。记已知的样本集为：
D = { x 1 , x 2 , ⋯   , x n } D=\lbrace x_1,x_2,\cdots,x_n\rbrace D={x1,x2,⋯,xn}
其似然函数为：
(4) L ( p ∣ x 1 , ⋯   , x n ) = f ( X ∣ p ) = f ( x 1 , x 2 , ⋯   , x n ∣ p ) = ∏ i = 1 n f ( x i ∣ p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i \begin{aligned} L(p|x_1,\cdots,x_n)&=f(X|p)\\ &=f(x_1,x_2,\cdots,x_n|p)\\ &=\prod_{i=1}^n{f(x_i|p)}\\ &=\prod_{i=1}^n{p^{x_i}(1-p)^{1-x_i}}\tag{4} \end{aligned} L(p∣x1,⋯,xn)=f(X∣p)=f(x1,x2,⋯,xn∣p)=i=1∏nf(xi∣p)=i=1∏npxi(1−p)1−xi(4)
由于有连乘运算，通常对似然函数取对数来计算，即对数似然函数。因此其对数似然函数为：
(5) L = log ⁡ ∏ i = 1 n f ( x i ∣ p ) = ∑ i = 1 n log ⁡ f ( x i ∣ p ) = ∑ i = 1 n [ x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ] \begin{aligned} L&=\log \prod_{i=1}^nf(x_i|p)\\ &=\sum_{i=1}^n{\log f(x_i|p)}\\ &=\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}\tag{5} \end{aligned} L=logi=1∏nf(xi∣p)=i=1∑nlogf(xi∣p)=i=1∑n[xilogp+(1−xi)log(1−p)](5)
等式 ( 5 ) (5) (5) 其实就是逻辑回归中使用到的交叉熵了。
p ^ = arg ⁡ max ⁡ p L ( p ∣ X ) = arg ⁡ max ⁡ p ∑ i = 1 n [ x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ] \begin{aligned} \hat{p}&=\arg \max_{p}L(p|X)\\ &=\arg \max_p {\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}} \end{aligned} p^=argpmaxL(p∣X)=argpmaxi=1∑n[xilogp+(1−xi)log(1−p)]
因此，最大似然估计其实就是求似然函数的极值点，将对数似然函数对参数 p p p 求导：
∂ L ∂ p = ∑ i = 1 n [ x i p + 1 − x i p − 1 ] = ∑ i = 1 n p − x i p ( p − 1 ) = 0 \begin{aligned} \frac{\partial L}{\partial p}&=\sum_{i=1}^n{[\frac{x_i}{p}+\frac{1-x_i}{p-1}]}\\ &=\sum_{i=1}^n{\frac{p-x_i}{p(p-1)}}=0 \end{aligned} ∂p∂L=i=1∑n[pxi+p−11−xi]=i=1∑np(p−1)p−xi=0
从而得到伯努利的最大似然估计为：
∑ i = 1 n ( p − x i ) = 0   ⟹   p = 1 n ∑ i = 1 n x i \begin{aligned} &\sum_{i=1}^{n}{(p-x_i)}=0\\ \implies &p=\frac{1}{n}\sum_{i=1}^n{x_i} \end{aligned} ⟹i=1∑n(p−xi)=0p=n1i=1∑nxi

总结

求概率模型的最大似然估计的一般步骤如下：

写出随机变量的概率分布函数；
写出似然函数；
对似然函数取对数，并进行化简整理；
对参数进行求导，找到似然函数的极值点；
解似然方程。

相信了解逻辑回归算法的小伙伴已经看出来了，对逻辑回归的推导其实质上也是最大似然估计算法。在逻辑回归中，其概率分布函数不再是 f ( x ) = p x ( 1 − p ) 1 − x f(x)=p^x(1-p)^{1-x} f(x)=px(1−p)1−x ，而是：
(6) P ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}\tag{6} P(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y(6)
其中：
(7) h θ ( x ) = 1 1 + e − z = 1 1 + e − θ T x h_{\theta}(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^{T} x}}\tag{7} hθ(x)=1+e−z1=1+e−θTx1(7)
详细过程参见：逻辑回归推导

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

伯努利分布的最大似然估计的相关文章

Matlab批量拟合曲线并绘制在一张图上

文章目录简单的拟合批量拟合并呈现在一张图上最终结果与完整代码简单的拟合在命令行输入 cftool 可以启动工具箱 1 在选择数据中导入数据 2 选择拟合方法 matlab提供的方法或者你自己定义的函数 matlab提供的方法

随机推荐

数据结构——非线性结构（树与二叉树）

文章目录一非线性结构的概述二树的基本概念 1 树的定义 2 专业术语 3 树的性质三树的分类 1 一般树 2 二叉树是有序树 2 1 概念 2 2 分类 1 一般二叉树 2 满二叉树 3 完全二叉树 2 3 二叉树的性质 2
【西南交大电子实习】用ESP32和HX711实现的称重计/电子秤的Arduino代码

参考 https randomnerdtutorials com esp32 load cell hx711 7月12日 Update 修改为克g 盎司oz 克拉ct之间的切换增加计数功能版本代码需要安装的arduino库 Adafru
JS变量的使用【弹出输入框，提示用户名输入姓名；弹出一个对话框，输出用户刚才输入的姓名】

一代码二结果显示 1 输入名字 2 输出名字三补充变量 1 变量只声明不赋值输出结果是undefined 2 变量不声明不赋值直接使用某个变量会报错 3 不声明直接赋值使用也可使用 4 尽量不要用name作为变量名
我玩了玩chatGPT，她确实NB！

大家好我是北妈 0 如果这几天你不知道一个叫chatGPT的东西那说明你网感真不太好了或者说你过的很幸福完全不需要关注网络世界的新动向因为毫不夸张地说北妈个人未来可以预见的是普通互联网从业人士已经赶不上时代趋势以后如果地球没
Spring Source Tools安装Virgo插件

1 STS 3 7 4 安装Virgo插件失败需要先安装先下载一个STS IDE 地址 http spring io tools sts all 然而在STS中添加Virgo插件如果你直接在Install new software中输
mysql 1054错误 "Unknown column 'xxx' in 'field list'"

出现问题的代码如下 s 测试 sql INSERT INTO ffff ID VALUES s s try cursor execute sql db commit print 写入成功 except Exception as e prin
FPGA基本IP核之FIFO（异步）

异步FIFO 创建新的异步FIFO IP核可以看出相比于同步FIFO这里做了写和读两侧并且各自用一个时钟一般选用二级同步然后勾选读和写两侧需要用到的三种信号选择添加额外的MSB 由于分成两侧时中间不知道数据是否写满了或者写空了添
GE IS215VCMIH2BB IS200VCMIH2BCC 数字量输入模块

GE IS215VCMIH2BB 和 IS200VCMIH2BCC 是数字量输入模块通常用于工业自动化和控制系统中用于接收和处理数字量输入信号以下是这些模块可能具备的一些常见功能和产品特点多通道输入这些模块通常具有多个数字量输入通
【数据读写】csv文件与xls/xlsx文件

目录一 csv格式与xls xlsx格式的区别二两种文件格式的读写操作 1 csv文件的读写函数 csvread csvwrite 2 xls xlsx文件的读写函数 xlsread xlswrite 三应用案例 1 实例1 参
STM32寄存器

问题什么是寄存器什么是存储器映射什么是寄存器映射 STM32架构程序存放在FLASH中 const的常量存放在FLASH中变量全局静态变量存放在SRAM中 System总线主要读取寄存器 AHB 高速总线上挂着SDIO 复
【微信公众号开发系列文章】二、Access token相关操作

所有内容首发微信公众号 WEB前端李志杰欢迎关注点赞并转发写在最前关于获取Access token这部分内容建议仔细阅读官方文档本文章对于重点内容进行了摘录有利于大家把握重点部分最后文章中会给出这一部分的程序设计思路及示例代码
c++编译踩坑大赏

1 编译错误error binding const Person to reference of type Person discards qualifiers 意思是在进行函数传参时不能把常变量这里是常引用传递给非常变量 Perso
在vs2019上编写Linux系统下的c++程序_远程 Linux 系统上的 Ubuntu

在vs2019上编写Linux系统下的c 程序远程 Linux 系统上的 Ubuntu 正文遇到的问题方法一如果方法一无法解决您可以尝试方法二正文第一步先将自己的Linux 系统设为静态IP 具体操作如下在修改以下文件时
做好三件事，就能避免远程办公变成“肥宅办公”

随着上海疫情持续越来越多的白领开启了远程办公可由于宅家办公运动量小一天三餐还是照常吃因此有些人的远程办公渐渐变成了肥宅办公自己变得不爱动弹体态也变得臃肿这可怎么办才好专业人士表示如果做到了这三件事就可以避免远程办公变成
微信小程序（或uniapp）引入腾讯视频插件播放视频

1 申请插件注意个人开发者无法使用登录微信公众平台在你的小程序后台的设置第三方服务插件管理搜索插件并点击添加添加成功之后点击详情查看该插件的具体信息拿到该插件的appid以及版本号 github地址 https git
使用ogg 从oracle 同步mysql遇到问题记录

ORACLE 同步mysql遇到问题 2018 08 27 10 59 54 WARNING OGG 01004 Aborted grouped transaction on DESIGNXXxx Database error 1105 S
SQL批量操作大全

1 list嵌套list查询SQL
解决IDEA中maven导入jar包

查看 File gt Project Structure gt Libraries如下面没有maven所引入的jar包则为该错误 1 错误原因是导入的module错误应该导入maven的module 解决 File gt Proje
JS 传各种文件到后端

一个前端上传文件按钮功
伯努利分布的最大似然估计

前言昨天晚上参加阿里巴巴的实习面试各种被虐面试了将近90分钟才做了3个题加上项目的介绍在机器学习方面问到了一个伯努利分布的最大似然估计的推导想到逻辑回归的推导就是利用最大似然估计然后就套用了其推导过程可能前面被说的有点迷