一些杂七杂八的概率统计基础（变分推断所需）

2023-11-17

在开始之前要了解以下这个统计学中背景知识：
贝叶斯学派与频率学派(极大似然估计学派)最大的区别就是，贝叶斯学派认为参数θ不是一个确定值，而是一个随机变量，且随机变量一定是服从某个分布的。

在概率统计中，随机变量(随机数量)：变量中的值是随机现象的结果

似然是个函数！是一个已知量为观测结果未知量为参数的函数，而不是一个概率值。我们已知了观测结果就可以用参数（参数就理解为随机变量服从的某种概率分布的参数）作为未知量列一个表达式写出当前观测结果发生的一个概率。
因为后验概率=先验概率*似然函数，所以我们说得后验概率也是指一个函数并不是一个确定的概率值。
似然用来描述已知随机变量的观测结果时（如随机变量是指抛50次硬币这个事件中，抛硬币获得正面的次数，观测结果是指硬币正面朝上的次数），未知参数的可能取值。似然中就是观测（结果）是已知的，参数是未知的，最大似然估计就是用来估计模型的参数。
所谓最大似然估计就是假设硬币的参数，因为已知实验结果，然后计算实验结果的概率是多少，概率越大的那么这个假设的参数就可能越真。
提到似然就想象用高斯分布模型去理解！可以根据利用最大似然估计求解高斯分布的实例来强化理解上述内容，已知的观测就是高斯分布的x轴坐标，求解的未知参数就是高斯分布的均值和方差，具体参考下面这个链接：
https://zhuanlan.zhihu.com/p/346044291

首先最重要的是要理清算法设计的初衷和大逻辑，即EM算法和变分推断的区别：
1）首先来讲EM算法，EM算法其实就是从非完整数据集中对参数进行 MLE（极大似然估计）。如下图所示，图中l(θ)为似然函数乘积后取对数得到的。对于没有隐变量的正常情况下，采用极大似然估计法，对下图中的l(θ)求导数并令导数等于0，得到极大值时对应的参数，然后估计出模型参数。可是对于除了含有观测变量还含有隐变量的任务来说，比如：有100个男女身高的样本数据，但是我们不知道具体每个样本来源于男生还是女生，现在需要求男生和女生的身高分别服从什么样的分布；这里样本来源于男生还是女生就是我们的样本中的缺少的观测数据，我们把它叫做隐变量。这种含有隐变量的任务采用上述直接估计参数的方法是不太方便的，因为如果对l(θ)求偏导，会发现非常困难，因为式中包含有隐变量，并且还有和（或积分）的对数，所以很难求解得到未知参数θ。所以我们需要用其它方式去解决参数估计问题。于是我们从求解一个针对已观测变量的似然转而去求解一个针对已观测变量的边际似然，笔者认为边际似然这个概念就类似于边缘分布的概念 (其中x就是已观测变量，z是隐变量，x的边际似然就是对应下图红框部分,分号;等价于∣这个符号），所以EM算法便诞生了。因此，EM算法用于求解当变量集合中出现未观测变量时的参数估计问题。
如下面第二张图所示，传统EM算法分为两个步骤，从这张图看出EM和Variational Inference的区别就是，传统EM算法有个先决条件就是q等于pθ(z|x)这个后验分布，说明在EM算法里提前假设了pθ(z|x)这个后验分布是tractable的，而Variational Inference设计的初衷就是为了解决pθ(z|x)是intractable这个问题，这就是两者的区别：
E-step: 即“推断步”，推断隐变量z分布的期望，这一步执行之后，相当于隐变量z在某种程度上成为了一种“已观测”变量；
M-step: 即“估计步”，根据已观测变量x和在E步观测到的z进行参数估计。这里，参数估计采用“极大似然估计”
在这里插入图片描述

2）变分推断理解：
我们假设x是观测变量(或者叫证据变量、输入变量)，z是隐变量(或者说是我们希望推断的label，在监督学习中通常用y表示，但在贝叶斯中，一般会用z表示隐变量)，例如在线性回归问题中，x是线性回归模型的输入，z是线性回归模型的预测值；在图像分类问题中，x是图像的像素矩阵，z是图像的类别，即label。
假定我们用 X={x1,x2,…,xm}代表我们输入的观察量，Z={z1,z2,…,zm}代表模型中的隐藏变量，隐变量就是不可观测的变量，是服从未知概率分布，后验概率是一种条件概率，它限定了事件为隐变量取值，而条件为观测结果。一般的条件概率，条件和事件可以是任意的。推断问题(推断指推断隐变量) 即为依据输入数据的后验条件概率分布 P(Z∣X) 。如下图公式所示，X为已知的观测数据即样本量，Z为模型的隐变量，即Z={z1,z2,…,zm}。下面这个式子称为计算Z的后验概率，其表达的意思是首先给定一个先验分布p(Z)，然后在我们观测到数据X的条件下时求Z的分布，最后求出来的这个后验分布 P(Z∣X) 用来更新之前的先验分布p(Z)。但是在计算这个公式中等号右边的分母项时，但隐变量Z通常都是需要高维的，这样才能充分represent样本X，所以如果Z的维度特别高，则计算的是高维度上的积分，数值上计算是非常困难的。并且有些情况是可能不存在解析解的。所以此时就可以尝试用变分推断的方法，寻找容易表达和求解的分布q，当q和p的差距很小的时候，q就可以作为p的近似分布，成为输出结果了。在这个过程中，我们的关键点转变了，从“求分布”的推断问题，变成了“缩小距离”的优化问题。对这一部分的理解还可以结合下文其余小知识点里的后验分布进行理解。

这个变分推断的博客是我看过这么多后觉得讲得最好的一个：https://zhuanlan.zhihu.com/p/507776434
在这里插入图片描述

其余小知识点：
1.后验分布: 首先得知道的是得知道D={x1,x2,…,xn}和θ{θ1,θ2,…,θn}都是随机变量！D是关于观测到的数据的随机变量，θ是关于模型参数的随机变量。注意：只要是随机变量就一定服从某个分布，但是这个分布不一定存在对应的密度函数！！！比如我们假定一个事件x1的发生服从某个分布，那我们就可以让θ1表示这个分布的参数。把后验分布看作一个函数，它正比于似然函数乘以参数的先验分布，注意的是参数的先验分布也是一个函数。比如有一堆数据{x1,x2,…,xn}，我们把这些数据都看成是一个个独立的事件，那么D就是一组事件的集合。其中每个事情服从的分布不一定相同。 举个例子，如投硬币，硬币朝上的概率就可以看作参数。如果硬币不是均匀的，抛硬币这一事件就可能服从多种参数θ={θ1,θ2,…,θn}的0-1分布的其中一种，这些参数θ={θ1,θ2,…,θn}也服从某个分布。θ是关于模型参数的随机变量，这些参数θ={θ1,θ2,…,θn}也服从某个分布。在VAE中z被称作是隐变量，并不等同于θ，z可以看成在混合高斯模型中可观测变量样本x属于第几个高斯分布，如z=1就是x这个变量是属于第1个高斯分布，而这个选定的高斯分布的参数就是指的θ。P(θ|x)表示的是给定观测数据的基础上，我们对于模型参数的分布产生的新的认知。
具体例子可参见：https://www.zhihu.com/question/24261751/answer/2355943888

2.求谁不积谁(积是指积分)，定值不能作为dx。

3.后验概率可以看作等效于似然函数乘以先验，但是似然函数并不是概率密度函数，可从以下两点原因进行区分：
1）.似然函数是参数的函数，不是随机变量（指样本）的函数。
2）.似然函数的积分并不等于1，而概率密度的积分为1.

4.概率不等于概率密度，平时说的概率应该是称作概率质量函数(Probability Mass Function, PMF)。具体区别：https://zhuanlan.zhihu.com/p/413360980

5.对于想得到身高数据的概率分布，x是身高，z隐变量就是性别，隐变量和参数θ是两个概念，参数就是均值方差等，可以理解为一个变量对应一组参数。

6.如果一个概率分布在x轴做一个积分或求和的话则结果为1，如下图N就是一个概率分布，概率分布的x轴代表样本（如身高），y轴代表概率密度。
在这里插入图片描述
7. 不能乱加隐变量，能加隐变量的条件是：加入隐变量z后得到的marginal distribution仍然要等于原来的P(x)，这里的边缘分布即就是利用全概率公式展开得到的：

8.连续型随机变量的函数的数学期望（对任何一个数求期望都要首先知道它的分布，如下图f(x）就是它的概率分布），当数量很大时，由大数定律可得，随机变量的期望就等于随机变量的平均值：
在这里插入图片描述
9. Jensen不等式，可以看做期望的函数小于等于函数的期望，这说的函数的期望里的函数就是指f(x)。等号成立的条件是当f(x)里的x等于一个常数或者说f(x)恒等于一个常数：

10. 联合分布和边缘分布：

https://zhuanlan.zhihu.com/p/360842262

11.KL散度，范围大于等于0
在这里插入图片描述

12.贝叶斯基础：条件概率公式(也适用于概率密度函数）是推导的重中之重，然后在证明式子的时候一般以条件概率公式作为桥梁，对左边和右边同时变形来进行证明，逗号是指联合概率，运算顺序是先逗号，再条件概率：
在这里插入图片描述

13.这是VAE的loss function，这里log(pθ(x))为什么是const常数呢？因为在这里它和q没有关系，当x固定时，log(pθ(x))就相当于是个常数。
在这里插入图片描述

14. 边缘分布
我们经常会遇到求某个随机变量的边缘分布，marginal function就是为了将不同变量对于结果的影响分离出来，起到简化分析的目的。那么在联合分布中，我们怎么能让另一个变量Y失效只研究变量X呢？我们采取的做法是使得Y取到定义域的全部，使其发生的概率达到百分百，那么这个事件究竟发生不发生，就完全取决于我们要研究的X了。
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Math

一些杂七杂八的概率统计基础（变分推断所需）的相关文章

矩阵向量变换

我正在编写一个代码来制作软件蒙皮器骨骼皮肤动画并且我正处于优化阶段蒙皮器工作得很好并且在 Core 上 1 09 毫秒内对 4900 个三角形网格与 22 个骨骼进行蒙皮Duo 2 Ghz 笔记本我需要知道的是 1 有人可以
找出圆周上像素坐标的算法

如果我知道圆心圆半径和垂直角的像素坐标如何找出圆圆周上一定角度的像素值基本上我试图在不同的时间绘制时钟的指针 1点 2点等 Let h是浮点数形式的小时 h 2 25将是 02 15 等在 0 到 12 之间 cX cY 是中心的
基于时间的算法评分

我们希望创建一种评分算法在更短的时间内获得更高的分数在更长的时间内获得更少的分数需要注意的是没有实际范围因此时间范围可以从 100 毫秒到长达 10 分钟或更长时间点范围为 0 到 50 谢谢你的帮助你可以简单地把它变成一个线
计算序言中列表的排列

在序言艺术第二版中有一个问题您应该定义一个谓词 Even permutation Xs Ys 和类似的奇数排列当您查询时例如 Even permutation 1 2 3 2 3 1 和 odd permutation 1 2 3
两组数的最小公等和及组合

我目前正在用 C 创建一个程序该程序将查找两组数字的尽可能低的相等总和您可以在其中根据需要多次重复这些数字比如我有这两套 10 13 18 and 12 16 22 我能得到的最低金额是28 10 18 and 12 16 另一个例子
如何自定义舍入形式

我的问题可能看起来很简单但仍然无法得到有效的东西我需要自定义 Math round 舍入格式或其他格式以使其工作如下如果数字是 1 6 他应该四舍五入到 1 如果大于或等于 1 7 他应该四舍五入到 2 0 对于所有其他带有 6 的小
这个方法比 Math.random() 更快吗？

我是一名初学者目前已经开始开发一款使用粒子群优化算法的 Android 游戏我现在正在尝试稍微优化我的代码并且 for 循环中有相当多的 Math random 几乎一直在运行所以我正在考虑一种方法来绕过并跳过所有 Math ran
如何在 C 中将 uint 转换为 int，同时将结果范围的损失最小化

我想要两个无界整数之间的差每个整数由一个表示uint32 tvalue 是对 2 32 取模的无界整数例如 TCP 序列号请注意模 2 32表示形式可以环绕 0 这与更受限制的问题不允许环绕 0 https stackoverfl
CGPoint 标量乘法 Swift

我正在 SpriteKit 中构建一个平台游戏并将为我的实体实现更新功能以便它们根据重力和速度移动但是我需要使添加的速度量与增量时间成比例以防止帧速率影响我的实体的移动方式因此我将导入 GLKit 以便我可以使用标量函数但是
选择一组数字以达到最小总数的算法

给定一组数字n 1 n 2 n 3 n x 还有一个数字M 我想找到最好的组合 n a n b n c n gt M 该组合应达到达到或超过 M 所需的最小值没有其他组合可以提供更好的结果将在 PHP 中执行此操作因此可以使用 PH
在 2D 中将一个点旋转另一个点

我想知道当一个点相对于另一个点旋转一定角度时如何计算出新的坐标我有一个块箭头想要将其相对于箭头底部中间的点旋转角度 theta 这是允许我在两个屏幕控件之间绘制多边形所必需的我无法使用和旋转图像从我到目前为止所考虑的情况来看使问题
批处理文件中是否存在“Power to”功能？（指数）

Problem 有没有办法将变量乘以数字或其他变量的批处理文件有这个功能吗 Python 中的一个示例是您可以使用为到的力量 EDIT 您可以在批处理文件中进行数学运算 http en wikipedia org wiki Ba
C# 中的工作百分比

我有两个值其中一个是十进制值和另一个值该值将计算该小数值的百分比例如 10 的 60 6 decimal value1 10 decimal percentage 60 textbox1 text mathsum here toSt
从 x,y 屏幕空间坐标查找 2D 等距网格上的列、行（将方程转换为函数）

我试图在屏幕空间点 x y 的二维等距网格中找到行列现在我几乎知道我需要做什么即找到上图中红色向量的长度然后将其与表示网格边界的向量的长度由黑色向量表示进行比较现在我在数学堆栈交换中寻求帮助以获得用于计算点 x y 与黑色边
如何将Excel中的每个条目转换为一行“矩阵”表

我有类似的东西 1 2 3 a x o x b x x o c o o o 并想将其转换成像这样的线 1 a x 1 b x 1 c x 2 a o 2 b x 2 c o 3 a x 3 b o 3 c o 通过使用Excel文档中的公式
二维随机微分方程 (SDE)

我第一次研究随机微分方程我正在寻求模拟和求解二维随机微分方程模型如下 dp F t p dt G t p dW t where p 是一个 2 1 向量 p theta t phi t F是列向量 F sin theta Psi cos
旋转矩阵openCV

我想知道如何找到框架中一组特征的旋转矩阵我会更具体我有 2 个具有 20 个特征的帧假设第 1 帧和第 2 帧我可以估计两个帧中特征的位置例如假设位置 x y 处的某个第 1 帧特征并且我确切地知道它在哪里所以假设为 x y
涉及数学的方法给出与计算器不同的答案

我是java新手所以请耐心等待我试图从比赛总数中获得胜利的百分比但我正在做的事情还很遥远我获取百分比的方法如下 public double winPercentage int wins int total return wins t
C/C++：指针算术

我在读一点指针算术发现有两件事我无法理解也不知道它的用途 address expression address expression and also address expression gt address expression
如何在 C# 中将 BigInteger 转换为 pow Double？

我尝试使用BigInteger Pow计算类似 10 12345 987654321 的方法但此方法只接受整数作为指数如下所示 BigInteger Pow BigInteger x int y 那么如何在上述方法中使用双数作为指数呢

随机推荐

vue自定义指令之手写v-loading指令

先看效果自定义加载效果的loading指令为什么不创建一个组件来加载loading效果麻烦你得先引入组件注册挂载组件然后在通过v if在空子显示隐藏为什么要用自定义loading指令由于项目中很多地方需要用到在哪个元素或者组
2022年第十四届电工杯赛题分析

作为2022年上半年最后一场建模比赛的电工杯为期72个小时在众多建模比赛中电工杯属于难度大比赛时间短知名度大的比赛在我个人看来电工杯可以作为美赛国赛之下第二梯队建模比赛里的头号比赛因此为了更好选题比赛本次比赛我将在本篇文
Android 之 PopupWindow(悬浮框) 的基本使用

本节引言本节给大家带来的是最后一个用于显示信息的UI控件 PopupWindow 悬浮框如果你想知道他长什么样子你可以打开你手机的QQ 长按列表中的某项这个时候后弹出一个黑色的小对话框这种就是PopupWindow了和Ale
Latex安装以及作业笔记

Latex安装参考怎么安装LaTex 半句多的文章知乎 https zhuanlan zhihu com p 56982388 作业 1 文档相关说明 2 公式写法 https blog csdn net weixin 3089203
sudo: unable to resolve host [hostname]（已解决）

在阿里云服务器上安装Java时报错于是修改文件 etc hosts解决 PS 此时sudo依然可以继续运行 etc hosts原文件如下 127 0 0 1 localhost The following lines are desira
MySQL数据库——DDL基本操作

文章目录前言数据库操作查看已存在的所有数据库创建数据库选中数据库删除数据库修改数据库编码表操作创建表显示创建表时的语句显示表结构删除表修改表的结构增加列修改列删除列修改表名前言 DDL 操作是与数据库结构
Makefile执行报错——CONFIG_X86_X32 enabled but no binutils support

错误描述在学习Linux驱动的时候编写完一个demo 执行make的时候报了如标题所示的错误使用的makefile如下 KERNELDIR lib modules uname r build hello world objs hel
ESP8266_MQTT协议

1 了解下MQTT协议虽然上一篇用起来了MQTT 但是并不十分了解基本就局限于发布主题是发送数据订阅主题是接收数据今天就再好好了解一下吧分享下网页版的 MQTT协议中文版链接 Introduction MQTT协议中文版 1
HTTP 字体跨域问题

一背景介绍最近在做公用菜单时由于除了提供给子应用系统html代码外还需要提供样式脚本样式中涉及到了字体跨域的情况下样式脚本都可以正常访问但是字体访问就会出现跨域问题了二问题描述问什么是字体跨域答就是你所引用css
unity和VS2019联调问题解决

以前使用VS2015和17的时候联调的时候是可以附加到unity进行联调的今天用的2019发现不可以了研究了一下是少装了一个插件装上插件就解决了过程如下当前使用VS版本2019企业版如图更多内容请关注微信公众号 unity风雨
《Android面试题及解析》分享，一文带你搞懂Android多线程Handler

网易游戏严格来说我投的是网易互娱区别于雷火盘古后面再说更多区别走的内推网易游戏以其笔试难度大著名这次也不例外所有的内推都要求参加统一笔试我记得笔试有几场我是在第一场内推的岗位是网易游戏最核心的游戏研发工程师地点是杭
Call to localhost/127.0.0.1:9000 failed on connection exception错误。

解决方案 1 首先查看hdfs site xml配置文件如下面所示
nginx+tomcat实现代理访问java web项目

最近由于部署考试系统遇到一系列问题由于Ubuntu上软件安装的混乱参考的博客过于坑爹所以环境配置的乱七八糟在一个午夜把一根烟抽的透透的然后开始重装了一次系统使用的Ubuntu 16 04LTS 由于时间原因一直没有吧我的这个
用acme.sh申请免费ssl证书-let‘s encrypt

这个是申请泛域名证书移动端和电脑端直接用这个就可以了不需要分开申请安装脚本 curl https get acme sh sh 进入 cd acme sh 看下目录有什么 root csdn ls adl acme sh drwx 8
CO_XT_COMPONENTS_DELETE 删除工单组件

REPORT zdtest6 判断是否有原始组件如有全删 DATA ls return TYPE coxt bapireturn DATA lt resbkeys TYPE coxt t resbdel lt return TYPE ST
RabbitMQ--扩展--03--日志文件，故障恢复，集群迁移，集群监控

RabbitMQ 扩展 03 日志文件故障恢复集群迁移集群监控 1 RabbitMQ日志查看如果在使用RabbitMQ 的过程中出现了异常情况通过查看RabbitMQ 的服务日志可以让你在处理异常的过程中事半功倍 RabbitMQ
python基础—字符串操作

1 字符串 Python内置了一系列的数据类型其中最主要的内置类型是数值类型文本序列字符串类型序列列表元组和range 类型集合类型映射字典类型本章在介绍字符串列表元组和range类型共有的通用序列操作方法的基础
常用的相似度计算方法原理及实现

在数据分析和数据挖掘以及搜索引擎中我们经常需要知道个体间差异的大小进而评价个体的相似性和类别常见的比如数据分析中比如相关分析数据挖掘中的分类聚类 K Means等算法搜索引擎进行物品推荐时相似度就是比较两个事物的相似性一般通
笔记本计算机bios设置,联想笔记本BIOS设置详解

大部分用户朋友遇到系统损坏时不得不选择重装系统这样简单粗暴快的方式来解决然而在准备重装时却遇到BIOS设置难题不得不求助网络上各路大神却还是没能真正得到帮助下面快启动小编为大家分享联想笔记本BIOS设置详解希望能为大家排忧解难
一些杂七杂八的概率统计基础（变分推断所需）

在开始之前要了解以下这个统计学中背景知识贝叶斯学派与频率学派极大似然估计学派最大的区别就是贝叶斯学派认为参数不是一个确定值而是一个随机变量且随机变量一定是服从某个分布的在概率统计中随机变量随机数量变量中的值是随机现象的

一些杂七杂八的概率统计基础（变分推断所需）

一些杂七杂八的概率统计基础（变分推断所需） 的相关文章

随机推荐

热门标签

一些杂七杂八的概率统计基础（变分推断所需）的相关文章