一些杂七杂八的概率统计基础(变分推断所需)

2023-11-17

在开始之前要了解以下这个统计学中背景知识:
贝叶斯学派与频率学派(极大似然估计学派)最大的区别就是,贝叶斯学派认为参数θ不是一个确定值,而是一个随机变量,且随机变量一定是服从某个分布的。

在概率统计中,随机变量(随机数量): 变量中的值是随机现象的结果

似然是个函数!是一个已知量为观测结果未知量为参数的函数,而不是一个概率值。我们已知了观测结果就可以用参数(参数就理解为随机变量服从的某种概率分布的参数)作为未知量列一个表达式写出当前观测结果发生的一个概率。
因为后验概率=先验概率*似然函数,所以我们说得后验概率也是指一个函数并不是一个确定的概率值。
似然用来描述已知随机变量的观测结果时(如随机变量是指抛50次硬币这个事件中,抛硬币获得正面的次数,观测结果是指硬币正面朝上的次数),未知参数的可能取值。似然中就是观测(结果)是已知的,参数是未知的,最大似然估计就是用来估计模型的参数。
所谓最大似然估计就是假设硬币的参数,因为已知实验结果,然后计算实验结果的概率是多少,概率越大的那么这个假设的参数就可能越真。

提到似然就想象用高斯分布模型去理解!可以根据利用最大似然估计求解高斯分布的实例来强化理解上述内容,已知的观测就是高斯分布的x轴坐标,求解的未知参数就是高斯分布的均值和方差,具体参考下面这个链接:
https://zhuanlan.zhihu.com/p/346044291

首先最重要的是要理清算法设计的初衷和大逻辑,即EM算法和变分推断的区别:
1)首先来讲EM算法,EM算法其实就是从非完整数据集中对参数进行 MLE(极大似然估计) 。如下图所示,图中l(θ)为似然函数乘积后取对数得到的。对于没有隐变量的正常情况下,采用极大似然估计法,对下图中的l(θ)求导数并令导数等于0,得到极大值时对应的参数,然后估计出模型参数。可是对于除了含有观测变量还含有隐变量的任务来说,比如:有100个男女身高的样本数据,但是我们不知道具体每个样本来源于男生还是女生,现在需要求男生和女生的身高分别服从什么样的分布;这里样本来源于男生还是女生就是我们的样本中的缺少的观测数据,我们把它叫做隐变量。这种含有隐变量的任务采用上述直接估计参数的方法是不太方便的,因为如果对l(θ)求偏导,会发现非常困难,因为式中包含有隐变量,并且还有和(或积分)的对数,所以很难求解得到未知参数θ。所以我们需要用其它方式去解决参数估计问题。于是我们从求解一个针对已观测变量的似然转而去求解一个针对已观测变量的边际似然 ,笔者认为边际似然这个概念就类似于边缘分布的概念 (其中x就是已观测变量,z是隐变量,x的边际似然就是对应下图红框部分,分号;等价于∣这个符号),所以EM算法便诞生了。因此,EM算法用于求解当变量集合中出现未观测变量时的参数估计问题。
如下面第二张图所示,传统EM算法分为两个步骤,从这张图看出EM和Variational Inference的区别就是,传统EM算法有个先决条件就是q等于pθ(z|x)这个后验分布,说明在EM算法里提前假设了pθ(z|x)这个后验分布是tractable的,而Variational Inference设计的初衷就是为了解决pθ(z|x)是intractable这个问题,这就是两者的区别
E-step: 即“推断步”,推断隐变量z分布的期望,这一步执行之后,相当于隐变量z在某种程度上成为了一种“已观测”变量;
M-step: 即“估计步”,根据已观测变量x和在E步观测到的z进行参数估计。这里,参数估计采用“极大似然估计”
在这里插入图片描述
在这里插入图片描述

2)变分推断理解:
我们假设x是观测变量(或者叫证据变量、输入变量),z是隐变量(或者说是我们希望推断的label,在监督学习中通常用y表示,但在贝叶斯中,一般会用z表示隐变量),例如在线性回归问题中,x是线性回归模型的输入,z是线性回归模型的预测值;在图像分类问题中,x是图像的像素矩阵,z是图像的类别,即label。
假定我们用 X={x1,x2,…,xm}代表我们输入的观察量,Z={z1,z2,…,zm}代表模型中的隐藏变量,隐变量就是不可观测的变量,是服从未知概率分布,后验概率是一种条件概率,它限定了事件为隐变量取值,而条件为观测结果。一般的条件概率,条件和事件可以是任意的。 推断问题(推断指推断隐变量) 即为依据输入数据的后验条件概率分布 P(Z∣X) 。如下图公式所示,X为已知的观测数据即样本量,Z为模型的隐变量,即Z={z1,z2,…,zm}。下面这个式子称为计算Z的后验概率,其表达的意思是首先给定一个先验分布p(Z),然后在我们观测到数据X的条件下时求Z的分布,最后求出来的这个后验分布 P(Z∣X) 用来更新之前的先验分布p(Z)。但是在计算这个公式中等号右边的分母项时,但隐变量Z通常都是需要高维的,这样才能充分represent样本X,所以如果Z的维度特别高,则计算的是高维度上的积分,数值上计算是非常困难的。并且有些情况是可能不存在解析解的。所以此时就可以尝试用变分推断的方法,寻找容易表达和求解的分布q,当q和p的差距很小的时候,q就可以作为p的近似分布,成为输出结果了。在这个过程中,我们的关键点转变了,从“求分布”的推断问题,变成了“缩小距离”的优化问题。对这一部分的理解还可以结合下文其余小知识点里的后验分布进行理解。

这个变分推断的博客是我看过这么多后觉得讲得最好的一个:https://zhuanlan.zhihu.com/p/507776434
在这里插入图片描述
在这里插入图片描述

其余小知识点:
1.后验分布: 首先得知道的是得知道D={x1,x2,…,xn}和θ{θ1,θ2,…,θn}都是随机变量!D是关于观测到的数据的随机变量,θ是关于模型参数的随机变量。注意:只要是随机变量就一定服从某个分布,但是这个分布不一定存在对应的密度函数 !!!比如我们假定一个事件x1的发生服从某个分布,那我们就可以让θ1表示这个分布的参数。 把后验分布看作一个函数,它正比于似然函数乘以参数的先验分布,注意的是参数的先验分布也是一个函数。比如有一堆数据{x1,x2,…,xn},我们把这些数据都看成是一个个独立的事件,那么D就是一组事件的集合。其中每个事情服从的分布不一定相同。 举个例子,如投硬币,硬币朝上的概率就可以看作参数。如果硬币不是均匀的,抛硬币这一事件就可能服从多种参数θ={θ1,θ2,…,θn}的0-1分布的其中一种,这些参数θ={θ1,θ2,…,θn}也服从某个分布。θ是关于模型参数的随机变量, 这些参数θ={θ1,θ2,…,θn}也服从某个分布。在VAE中z被称作是隐变量,并不等同于θ,z可以看成在混合高斯模型中可观测变量样本x属于第几个高斯分布,如z=1就是x这个变量是属于第1个高斯分布,而这个选定的高斯分布的参数就是指的θ。P(θ|x)表示的是给定观测数据的基础上,我们对于模型参数的分布产生的新的认知。
具体例子可参见:https://www.zhihu.com/question/24261751/answer/2355943888

2.求谁不积谁(积是指积分),定值不能作为dx。

3.后验概率可以看作等效于似然函数乘以先验,但是似然函数并不是概率密度函数,可从以下两点原因进行区分:
1).似然函数是参数的函数,不是随机变量(指样本)的函数。
2).似然函数的积分并不等于1, 而概率密度的积分为1.

4.概率不等于概率密度,平时说的概率应该是称作概率质量函数(Probability Mass Function, PMF)。具体区别:https://zhuanlan.zhihu.com/p/413360980

5.对于想得到身高数据的概率分布,x是身高,z隐变量就是性别,隐变量和参数θ是两个概念,参数就是均值方差等,可以理解为一个变量对应一组参数。

6.如果一个概率分布在x轴做一个积分或求和的话则结果为1,如下图N就是一个概率分布,概率分布的x轴代表样本(如身高),y轴代表概率密度。
在这里插入图片描述
7. 不能乱加隐变量,能加隐变量的条件是:加入隐变量z后得到的marginal distribution仍然要等于原来的P(x),这里的边缘分布即就是利用全概率公式展开得到的:
在这里插入图片描述

8.连续型随机变量的函数的数学期望(对任何一个数求期望都要首先知道它的分布,如下图f(x)就是它的概率分布),当数量很大时,由大数定律可得,随机变量的期望就等于随机变量的平均值:
在这里插入图片描述
9. Jensen不等式,可以看做期望的函数小于等于函数的期望,这说的函数的期望里的函数就是指f(x)。等号成立的条件是当f(x)里的x等于一个常数或者说f(x)恒等于一个常数:
在这里插入图片描述
10. 联合分布和边缘分布:
在这里插入图片描述
https://zhuanlan.zhihu.com/p/360842262

11.KL散度,范围大于等于0
在这里插入图片描述

12.贝叶斯基础:条件概率公式(也适用于概率密度函数)是推导的重中之重,然后在证明式子的时候一般以条件概率公式作为桥梁,对左边和右边同时变形来进行证明,逗号是指联合概率,运算顺序是先逗号,再条件概率:
在这里插入图片描述

13.这是VAE的loss function,这里log(pθ(x))为什么是const常数呢?因为在这里它和q没有关系,当x固定时,log(pθ(x))就相当于是个常数。
在这里插入图片描述

14. 边缘分布
我们经常会遇到求某个随机变量的边缘分布,marginal function就是为了将不同变量对于结果的影响分离出来,起到简化分析的目的。那么在联合分布中,我们怎么能让另一个变量Y失效只研究变量X呢?我们采取的做法是使得Y取到定义域的全部,使其发生的概率达到百分百,那么这个事件究竟发生不发生,就完全取决于我们要研究的X了。
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

一些杂七杂八的概率统计基础(变分推断所需) 的相关文章

  • 矩阵向量变换

    我正在编写一个代码来制作软件蒙皮器 骨骼 皮肤动画 并且我正处于 优化 阶段 蒙皮器工作得很好 并且在 Core 上 1 09 毫秒内对 4900 个三角形网格与 22 个骨骼进行蒙皮Duo 2 Ghz 笔记本 我需要知道的是 1 有人可以
  • 找出圆周上像素坐标的算法

    如果我知道圆心 圆半径和垂直角的像素坐标 如何找出圆圆周上一定角度的像素值 基本上 我试图在不同的时间绘制时钟的指针 1点 2点等 Let h是浮点数形式的小时 h 2 25将是 02 15 等 在 0 到 12 之间 cX cY 是中心的
  • 基于时间的算法评分

    我们希望创建一种评分算法 在更短的时间内获得更高的分数 在更长的时间内获得更少的分数 需要注意的是 没有实际范围 因此时间范围可以从 100 毫秒到长达 10 分钟或更长时间 点范围为 0 到 50 谢谢你的帮助 你可以简单地把它变成一个线
  • 计算序言中列表的排列

    在 序言艺术 第二版中有一个问题 您应该定义一个谓词 Even permutation Xs Ys 和类似的奇数排列 当您查询时 例如 Even permutation 1 2 3 2 3 1 和 odd permutation 1 2 3
  • 两组数的最小公等和及组合

    我目前正在用 C 创建一个程序 该程序将查找两组数字的尽可能低的相等总和 您可以在其中根据需要多次重复这些数字 比如我有这两套 10 13 18 and 12 16 22 我能得到的最低金额是28 10 18 and 12 16 另一个例子
  • 如何自定义舍入形式

    我的问题可能看起来很简单 但仍然无法得到有效的东西 我需要自定义 Math round 舍入格式或其他格式以使其工作如下 如果数字是 1 6 他应该四舍五入到 1 如果大于或等于 1 7 他应该四舍五入到 2 0 对于所有其他带有 6 的小
  • 这个方法比 Math.random() 更快吗?

    我是一名初学者 目前已经开始开发一款使用粒子群优化算法的 Android 游戏 我现在正在尝试稍微优化我的代码 并且 for 循环中有相当多的 Math random 几乎一直在运行 所以我正在考虑一种方法来绕过并跳过所有 Math ran
  • 如何在 C 中将 uint 转换为 int,同时将结果范围的损失最小化

    我想要两个无界整数之间的差 每个整数由一个表示uint32 tvalue 是对 2 32 取模的无界整数 例如 TCP 序列号 请注意 模 2 32表示形式可以环绕 0 这与更受限制的问题 不允许环绕 0 https stackoverfl
  • CGPoint 标量乘法 Swift

    我正在 SpriteKit 中构建一个平台游戏 并将为我的实体实现更新功能 以便它们根据重力和速度移动 但是 我需要使添加的速度量与增量时间成比例 以防止帧速率影响我的实体的移动方式 因此我将导入 GLKit 以便我可以使用标量函数 但是
  • 选择一组数字以达到最小总数的算法

    给定 一组数字n 1 n 2 n 3 n x 还有一个数字M 我想找到最好的组合 n a n b n c n gt M 该组合应达到达到或超过 M 所需的最小值 没有其他组合可以提供更好的结果 将在 PHP 中执行此操作 因此可以使用 PH
  • 在 2D 中将一个点旋转另一个点

    我想知道当一个点相对于另一个点旋转一定角度时如何计算出新的坐标 我有一个块箭头 想要将其相对于箭头底部中间的点旋转角度 theta 这是允许我在两个屏幕控件之间绘制多边形所必需的 我无法使用和旋转图像 从我到目前为止所考虑的情况来看 使问题
  • 批处理文件中是否存在“Power to”功能? (指数)

    Problem 有没有办法将变量 乘以 数字或其他变量的批处理文件 有这个功能吗 Python 中的一个示例是您可以使用 为 到 的力量 EDIT 您可以在批处理文件中进行数学运算 http en wikipedia org wiki Ba
  • C# 中的工作百分比

    我有两个值 其中一个是十进制值 和另一个值 该值将计算该小数值的百分比 例如 10 的 60 6 decimal value1 10 decimal percentage 60 textbox1 text mathsum here toSt
  • 从 x,y 屏幕空间坐标查找 2D 等距网格上的列、行(将方程转换为函数)

    我试图在屏幕空间点 x y 的二维等距网格中找到行 列 现在我几乎知道我需要做什么 即找到上图中红色向量的长度 然后将其与表示网格边界的向量的长度 由黑色向量表示 进行比较 现在我在数学堆栈交换中寻求帮助 以获得用于计算点 x y 与黑色边
  • 如何将Excel中的每个条目转换为一行“矩阵”表

    我有类似的东西 1 2 3 a x o x b x x o c o o o 并想将其转换成像这样的线 1 a x 1 b x 1 c x 2 a o 2 b x 2 c o 3 a x 3 b o 3 c o 通过使用Excel文档中的公式
  • 二维随机微分方程 (SDE)

    我第一次研究随机微分方程 我正在寻求模拟和求解二维随机微分方程 模型如下 dp F t p dt G t p dW t where p 是一个 2 1 向量 p theta t phi t F是列向量 F sin theta Psi cos
  • 旋转矩阵openCV

    我想知道如何找到框架中一组特征的旋转矩阵 我会更具体 我有 2 个具有 20 个特征的帧 假设第 1 帧和第 2 帧 我可以估计两个帧中特征的位置 例如 假设位置 x y 处的某个第 1 帧特征 并且我确切地知道它在哪里 所以假设为 x y
  • 涉及数学的方法给出与计算器不同的答案

    我是java新手 所以请耐心等待 我试图从比赛总数中获得胜利的百分比 但我正在做的事情还很遥远 我获取百分比的方法如下 public double winPercentage int wins int total return wins t
  • C/C++:指针算术

    我在读一点 指针算术 发现有两件事我无法理解 也不知道它的用途 address expression address expression and also address expression gt address expression
  • 如何在 C# 中将 BigInteger 转换为 pow Double?

    我尝试使用BigInteger Pow计算类似 10 12345 987654321 的方法 但此方法只接受整数作为指数 如下所示 BigInteger Pow BigInteger x int y 那么如何在上述方法中使用双数作为指数呢

随机推荐

  • vue自定义指令之手写v-loading指令

    先看效果 自定义加载效果的loading指令 为什么不创建一个组件来加载loading效果 麻烦你得先引入组件 注册挂载组件 然后在通过v if在空子显示隐藏 为什么要用自定义loading指令 由于项目中很多地方需要用到 在哪个元素或者组
  • 2022年第十四届电工杯赛题分析

    作为2022年上半年最后一场建模比赛的电工杯 为期72个小时 在众多建模比赛中 电工杯属于难度大 比赛时间短 知名度大的比赛 在我个人看来 电工杯可以作为美赛国赛之下第二梯队建模比赛里的头号比赛 因此 为了更好选题比赛 本次比赛我将在本篇文
  • Android 之 PopupWindow(悬浮框) 的基本使用

    本节引言 本节给大家带来的是最后一个用于显示信息的UI控件 PopupWindow 悬浮框 如果你想知道 他长什么样子 你可以打开你手机的QQ 长按列表中的某项 这个时候后弹出一个黑色的小 对话框 这种就是PopupWindow了 和Ale
  • Latex安装以及作业笔记

    Latex安装 参考 怎么安装LaTex 半句多的文章 知乎 https zhuanlan zhihu com p 56982388 作业 1 文档相关说明 2 公式写法 https blog csdn net weixin 3089203
  • sudo: unable to resolve host [hostname](已解决)

    在阿里云服务器上安装Java时报错 于是修改文件 etc hosts解决 PS 此时sudo依然可以继续运行 etc hosts原文件如下 127 0 0 1 localhost The following lines are desira
  • MySQL数据库——DDL基本操作

    文章目录 前言 数据库操作 查看已存在的所有数据库 创建数据库 选中数据库 删除数据库 修改数据库编码 表操作 创建表 显示创建表时的语句 显示表结构 删除表 修改表的结构 增加列 修改列 删除列 修改表名 前言 DDL 操作是与数据库结构
  • Makefile执行报错——CONFIG_X86_X32 enabled but no binutils support

    错误描述 在学习Linux驱动的时候 编写完一个demo 执行make的时候 报了如标题所示的错误 使用的makefile如下 KERNELDIR lib modules uname r build hello world objs hel
  • ESP8266_MQTT协议

    1 了解下MQTT协议 虽然上一篇用起来了MQTT 但是并不十分了解 基本就局限于 发布主题是发送数据 订阅主题是接收数据 今天就再好好了解一下吧 分享下网页版的 MQTT协议中文版 链接 Introduction MQTT协议中文版 1
  • HTTP 字体跨域问题

    一 背景介绍 最近在做公用菜单时 由于除了提供给子应用系统html代码外还需要提供样式 脚本 样式中涉及到了字体 跨域的情况下 样式脚本都可以正常访问 但是字体访问就会出现跨域问题了 二 问题描述 问 什么是字体跨域 答 就是你所引用css
  • unity和VS2019联调问题解决

    以前使用VS2015和17的时候联调的时候是可以附加到unity进行联调的 今天用的2019发现不可以了 研究了一下是少装了一个插件 装上插件就解决了 过程如下 当前使用VS版本2019企业版 如图 更多内容请关注微信公众号 unity风雨
  • 《Android面试题及解析》分享,一文带你搞懂Android多线程Handler

    网易游戏 严格来说我投的是网易互娱 区别于雷火 盘古 后面再说更多区别 走的内推 网易游戏以其笔试难度大著名 这次也不例外 所有的内推都要求参加统一笔试 我记得笔试有几场 我是在第一场 内推的岗位是网易游戏最核心的 游戏研发工程师 地点是杭
  • Call to localhost/127.0.0.1:9000 failed on connection exception错误。

    解决方案 1 首先查看hdfs site xml配置文件 如下面所示
  • nginx+tomcat实现代理访问java web项目

    最近由于部署考试系统 遇到一系列问题 由于Ubuntu上软件安装的混乱 参考的博客过于坑爹 所以环境配置的乱七八糟 在一个午夜 把一根烟抽的透透的 然后开始重装了一次系统 使用的Ubuntu 16 04LTS 由于时间原因一直没有吧我的这个
  • 用acme.sh申请免费ssl证书-let‘s encrypt

    这个是申请泛域名证书 移动端和电脑端直接用这个就可以了 不需要分开申请 安装脚本 curl https get acme sh sh 进入 cd acme sh 看下目录有什么 root csdn ls adl acme sh drwx 8
  • CO_XT_COMPONENTS_DELETE 删除工单组件

    REPORT zdtest6 判断是否有原始组件 如有全删 DATA ls return TYPE coxt bapireturn DATA lt resbkeys TYPE coxt t resbdel lt return TYPE ST
  • RabbitMQ--扩展--03--日志文件,故障恢复,集群迁移,集群监控

    RabbitMQ 扩展 03 日志文件 故障恢复 集群迁移 集群监控 1 RabbitMQ日志查看 如果在使用RabbitMQ 的过程中出现了异常情况 通过查看RabbitMQ 的服务日志可以让你在处理异常的过程中事半功倍 RabbitMQ
  • python基础—字符串操作

    1 字符串 Python内置了一系列的数据类型 其中最主要的内置类型是数值类型 文本序列 字符串 类型 序列 列表 元组和range 类型 集合类型 映射 字典 类型 本章在介绍字符串 列表 元组和range类型共有的通用序列操作方法的基础
  • 常用的相似度计算方法原理及实现

    在数据分析和数据挖掘以及搜索引擎中 我们经常需要知道个体间差异的大小 进而评价个体的相似性和类别 常见的比如数据分析中比如相关分析 数据挖掘中的分类聚类 K Means等 算法 搜索引擎进行物品推荐时 相似度就是比较两个事物的相似性 一般通
  • 笔记本计算机bios设置,联想笔记本BIOS设置详解

    大部分用户朋友遇到系统损坏时 不得不选择重装系统这样简单粗暴快的方式来解决 然而在准备重装时却遇到BIOS设置难题 不得不求助网络上各路大神 却还是没能真正得到帮助 下面快启动小编为大家分享联想笔记本BIOS设置详解 希望能为大家排忧解难
  • 一些杂七杂八的概率统计基础(变分推断所需)

    在开始之前要了解以下这个统计学中背景知识 贝叶斯学派与频率学派 极大似然估计学派 最大的区别就是 贝叶斯学派认为参数 不是一个确定值 而是一个随机变量 且随机变量一定是服从某个分布的 在概率统计中 随机变量 随机数量 变量中的值是随机现象的