参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE)

2023-11-14

基础

频率学派与贝叶斯学派

http://www.douban.com/group/topic/16719644/

http://www.zhihu.com/question/20587681

最大似然估计(Maximum likelihood estimationMLE

http://baike.baidu.com/view/1918804.htm

http://baike.baidu.com/view/185250.htm

最大后验估计(maximum a posteriori estimationMAP

http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

贝叶斯估计(Bayesian parameter estimationBPE

http://baike.baidu.com/view/6960491.htm

 

经典参数估计方法:普通最小二乘(OLS)、最大似然(ML)和矩估计(MM

http://lijiwei19850620.blog.163.com/blog/static/97841538201211282591699/

贝叶斯定理与贝叶斯估计

http://lijiwei19850620.blog.163.com/blog/static/978415382013655540438/

 

参数估计

从二项式分布到多项式分布-Beta分布到Dirichlet分布

http://hi.baidu.com/leifenglian/item/636198016851cee7f55ba652

参数估计是一个重要的话题。对于典型的离散型随机变量分布:二项式分布,多项式分布;典型的连续型随机变量分布:正态分布。他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概率等。因此,给定一堆观测数据集(假定数据满足独立同分布),我们需要有一个解决方案来确定这些参数值的大小,以便能够利用分布模型来做密度估计。这就是参数估计!

对于参数估计,一直存在两个学派的不同解决方案。一是频率学派解决方案:通过某些优化准则(比如似然函数)来选择特定参数值;二是贝叶斯学派解决方案:假定参数服从一个先验分布,通过观测到的数据,使用贝叶斯理论计算对应的后验分布。先验和后验的选择满足共轭,这些分布都是指数簇分布的例子。

参数估计方法的一个限制:是我们人为的假定了参数分布服从了某种指定形式的分布函数,这可能在某些特定情况下是不合适的。有一种可选的解决方案是:非参数密度估计,他只依赖于观测数据量的大小,这种方法其实也需要参数,但是这些参数只是控制了模型的复杂性而不是分布的函数形式。有三种无参密度估计方法:直方图,最近邻,核函数。

 

经典估计与贝叶斯估计

文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

http://blog.csdn.net/yangliuy/article/details/8296481

语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

http://hi.baidu.com/leifenglian/item/cdfdeaea9c3279088c3ea86c

参数估计:最大似然、贝叶斯与最大后验

http://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

贝叶斯估计浅析

http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html

极大似然估计和贝叶斯估计

http://blog.sciencenet.cn/blog-520608-703219.html

 

贝叶斯方法与经典估计方法的主要不同

http://lijiwei19850620.blog.163.com/blog/static/978415382013655540438/

1、关于参数的解释不同

经典估计方法认为待估参数具有确定值,它的估计量才是随机的,如果估计量是无偏的,该估计量的期望等于那个确定的参数;贝叶斯方法认为待估参数是一个服从某种分布的随机变量。

2、所利用的信息不同

经典方法只利用样本信息;贝叶斯方法要求事先提供一个参数的先验分布,即人们对有关参数的主观认识,被称为先验信息,是非样本信息,在参数估计过程中,这些非样本信息与样本信息一起被利用。

3、对随机误差项的要求不同

经典方法,除了最大似然法,在参数估计过程中并不要求知道随机误差项的具体分布形式,但是在假设检验与区间估计时是需要的;贝叶斯方法需要知道随机误差项的具体分布形式。

4、选择参数估计量的准则不同

经典估计方法或者以残差平方和最小,或者以似然函数值最大为准则,构造极值条件,求解参数估计量;贝叶斯方法则需要构造一个损失函数,并以损失函数最小化为准则求得参数估计量。

 

最大似然估计、贝叶斯估计两类参数估计的对比

http://blog.sina.com.cn/s/blog_56c221b00100gjlk.html

最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。特点:简单适用;在训练样本增多时通常收敛得很好。

最大后验估计(MAPMaxaposterior):p(D|)*p($)取最大值的那个参数向量$,最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了。)

贝叶斯估计:把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。典型的效果是:每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰,这个现象就称为贝叶斯学习过程。

 

最大似然估计(Maximumlikelihoodestimation)

http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html

最大后验估计(MAP)

http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

最大似然估计只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率,这点与贝叶斯估计区别。

最大后验估计根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计

MAPMLE最大区别MAP加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。

 

总结

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

贝叶斯估计

          http://wenku.baidu.com/view/420461e4102de2bd9605883c.html

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

方法比较

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

 

其他

最大似然估计&贝叶斯估计

http://blog.sciencenet.cn/blog-291618-392241.html

概率空间的定义为(Omega,F,P)。在概率图模型中,一个问题是从已知的抽样中估计概率测度P通常,有两种估计的方法:一是最大似然估计,一是贝叶斯估计。比如,投硬币的问题,30上,20下,就估计上的概率为3/5,这样的估计可以使似然度最大。而贝叶斯主义者认为还应该有更多的先验知识,比如我们早就知道这样的概率取值为1/2的概率相对最大,加入这样的知识后运用贝叶斯公式估计出来的概率就与最大似然法的结果不同。可以想像当先验知识可靠的时候,这样的估计会更准确的。

形式化一点,投硬币的概率空间为({,},{{},{}},{(,p),(,1-p)})最大似然直接在这样的空间上估计p。而贝叶斯主义者将所有p决定的测度P看成是另一个Omega*,即概率本身是另一个概率空间中的一个采样。这另一个空间有自己的另一套测度P*。比如投币问题中Omega*是所有可能拿到的硬币,显然P*会告诉我们不同的硬币会有不同的p如果这样的P*能够很好的得到,那么这样估计的概率会更有说服力。

那么我想做一些引申,既然一个正反面的概率测度P可以是一个更大的空间中依P*的采样,那么P*本身为什么不是从另一个更大空间中采样出来的呢。比如考虑温度、湿度、表面粗糙度、重力加速度等条件,会得到另一个概率空间Omega**,不同的环境条件决定了各个硬币正面概率的变化,故是这样的空间采样了P*如果我们同样能够清晰描述P**,这显然也是合理且有说服力的。

最大似然的模型,可以叫做零阶模型(名字是我自己杜撰的),而贝叶斯方法的模型可以叫做一阶模型,用同样的方法可以产生二阶、三阶以及更高阶的模型。前提是我们能够清晰的描述这些概率分布是如何从另一个概率分布中采样出来的。

一个问题是,这样的过程可以无限进行吗,任何实际的概率空间都可以这样吗,这样的过程都合理且有意义吗。

我这里想说的是,至少有一种实际的测度,不需要再做这样的泛化了。这样的测度就是宇宙的本质规律,它赋予任何实在的事件以概率,而它不再是根据某个P*采样出来的了。解释有两点:第一,这些规律有唯一的取值,如果某个规律每次测量会变化,那么必有更高的不变的规律解释这样的变化,从而前者不是本质规律,后者才是;第二,如果非要假想有另一种赋值的宇宙规律,而由于我们只可能知道P下的一切,对这样的P*我们不可能有任何认识,所以这样的泛化是无意义的。

形而上学会讨论可能宇宙,会讨论或然宇宙中是否有必然存在物,会讨论宇宙的常数是被如何精巧的设定以至于很幸运地产生了现在的宇宙的样子。我想得出的结论是,除了现在的宇宙外我们一无所知,连宇宙之外的这个规律P*都不知道哪怕一点点,又如何谈论它和他所测量的空间Omega*的性质呢。在这个范围内的任何设定都不会与现实宇宙中的任何现象概率相关,在概率图中他们被我们宇宙的本质规律这个节点阻断了。可能有可能宇宙,但我们的宇宙与这个宇宙无关。

 

第三章模式识别-最大似然估计和贝叶斯参数估计

http://star.sgst.cn/upload/attach/attach200910140408470m9mz6gd83.pdf

http://blog.csdn.net/Hou_Rj/article/details/6866451

哲学对比

举例:设参数为桌子的长度,估计该参数,通过测量得到了不同时刻测量的长度值{x1,x2,…,xn}。

唯物主义的方法:长度是确定的;估计方法有均值、中值等

唯心主义的方法:长度是不确定的,即变量;估计方法给出各个取值的可能性(概率)或者分布。

在参数估计的数学表达上,唯物主义的结果是得到一个确定的值来作为估计的结果。贝叶斯则得到一个概率值来作为估计结果,而必须是变量才有概率意义,这也是贝叶斯将参数做作不确定变量的直接数学表达。

经典学派是唯物主义,从理性出发,认为参数是确定的。贝叶斯学派是唯心学派,从感性出发,不同的测量样本空间确实得到了不同的值,因此是随机变量;

在实际的应用中,贝叶斯的方法比经典学派要好。

 

最大似然/贝叶斯分类

http://blog.sciencenet.cn/blog-291618-392241.html

与分布有关的统计分类方法主要有最大似然/贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。否则,用平行六面体或最小距离分类效果会更好。

分类步骤:

1、确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;

2、根据已掌握的典型地区的地面情况,在图像上选择训练区;

3、计算参数,根据选出的各类训练区的图像数据,计算和,确定先验概率;

4、分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;

5、产生分类图,给每一类别规定一个值,如果分10,就定每一类分别为1,2……10,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像.由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色;

6、检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。

这种方法的优点是,对符合正态分布的样本P聚类组而言,是监督分类中较准确的分类器,因为考虑的因素较多;与Mahalanobis距离一样.通过协方差矩阵考虑了类型内部的变化。缺点是,扩展后的等式计算量较大,当输入波段增加时,计算时间相应增加;最大似然是参数形式的,意味着每一输入波段必须符合正态分布;在协方差矩阵中有较大值时,易于对模板分类过头,如果在聚类组或训练样本中的象素分布较分散,则模板的协方差矩阵中会出现大值。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) 的相关文章

  • 差分与微分

    差分与微分 差分和微分都是数学中的一些基本概念 它们在数学 物理学 经济学和其他领域中都有广泛的应用 1 差分 差分可以理解为函数值之间的差别 特别地 如果一个函数 f f f 在两个相邻点 x 0
  • 矩阵的秩与行列式的几何意义

    这里首先讨论一个长期以来困惑工科甚至物理系学生的一个数学问题 即 究竟什么是面积 以及面积的高维推广 体积等 1 关于面积 一种映射 大家会说 面积 不就是长乘以宽么 其实不然 我们首先明确 这里所讨论的面积 是欧几里得空间几何面积的基本单
  • 【SSL_1232】雷达覆盖

    思路 以一个点作为平角 计算几何统计 c o d e code code include
  • LeetCode-1780. 判断一个数字是否可以表示成三的幂的和【数学】

    LeetCode 1780 判断一个数字是否可以表示成三的幂的和 数学 题目描述 解题思路一 将n转为3进制 如果没有2出现那么返回true 例如12 110 3 返回true 21 210 3 返回false 解题思路二 0 解题思路三
  • 线性相关与线性无关的定义与性质

    定义1 线性相关 K n K n K nK n Kn Kn 中向量组
  • python解最小二乘(least square)

    给定 A R d n A in R d times n
  • 如何用硬币模拟1/3的概率,以及任意概率?

    突然想起一个挺有意思的事 如何用硬币模拟1 3的概率 甚至任意概率 之前和朋友偶然间谈到如何用硬币模拟任何概率 当时以为是不可能的 因为硬币有两面 模拟的结果底数一定是2 n 今天又回顾了某个经典的条件概率问题 突然想到用硬币模拟任意概率是
  • 欧拉角,轴角,四元数与旋转矩阵详解

    入门小菜鸟 希望像做笔记记录自己学的东西 也希望能帮助到同样入门的人 更希望大佬们帮忙纠错啦 侵权立删 目录 一 欧拉角 1 静态定义 2 欧拉角的表示 3 欧拉角表示的优缺点 4 欧拉角的万向节死锁 静态不存在万向锁的问题 二 四元数 1
  • 线性代数的几何意义(一)——线性代数的意义

    线性代数的几何意义 一 一 线性 代数 的意义 何为 代数 代数 一词的英文是Algebra 源于阿拉伯语 其本意是 结合在一起 就是说代数的功能就是把许多看似不相关的事物 结合在一起 也就是进行抽象 抽象的目的不是故弄玄虚 而是为了更好的
  • 基础算法题——炎炎消防队(取巧、三分)

    炎炎夏日 题目描述 夏天的重庆格外地炎热 很容易起火 消防士们都全副武装 一旦发生险情就立马赶往救火 森罗是消防队中的一员 他在灭火的过程中突发奇想 如果能用退火的原理求解函数求最小值 那不就可以很容易计算了吗 翌日 森罗来到即将高考的弟弟
  • 关于suitesparse在windows平台下速度极慢以及奇奇怪怪的问题解决

    前言 好像suitesparse原本没有windows版本 然后国外一个大佬写了cmake搞出来的 所以可能存在一些奇奇怪怪的问题吧 主要是一下两点 1 windows相比linux环境速度奇慢 2 新手编译这个库经常会下载suitespa
  • 生态系统过程模型

    生态系统过程模型 根据生态系统的生理生态学特性 结合影响生态系统过程的观测指标 提出的能够反映生态系统过程的机制模型 统计模型 stochasticmodel statisticmodel probabilitymodel 指以概率论为基础
  • 为什么样本方差里面要除以(n-1)而不是n?

    前段日子重新整理了一下这个问题的解答 跟大家分享一下 如果有什么错误的话希望大家能够提出来 我会及时改正的 话不多说进入正题 首先 我们来看一下样本方差的计算公式 刚开始接触这个公式的话可能会有一个疑问就是 为什么样本方差要除以 n 1 而
  • 线性代数 - 特征向量和特征值

    今天在看到这个马汉诺拉距离的时候 又看到了这个东西 就是利用特征值来进行协方差方向上的伸缩 突然感觉到了线性代数的作用了 但是实际上 我今天看到了非常多的内容 但是都没有吸收完 很多内容都是线性代数的东西 但是这些东西我都忘了 这里先挖个坑
  • (邱维声)高等代数课程笔记:极大线性无关组,向量组的秩

    极大线性无关组 向量组的秩 quad 一般地 设 V V V 是数域 K K K 上的一个线性空间
  • 06. 计数原理

    6 计数原理 6 1 分类加法计数原理与分步乘法计数原理 分类加法计数原理定义 完成一件事 有 n n n 类办法 在第1类办法中有 m 1 m 1
  • 树状数组理论与实现

    理论 http www cnblogs com zhangshu archive 2011 08 16 2141396 html 今天听了大神的讲课 了解了点东西 发现是之前学过的 于是试着再写一遍 include
  • 矩阵求导常用公式

    矩阵求导常用公式 1 引言 2 向量的导数 2 1 向量对标量求导 Vector by scalar 2 2 标量对向量求导 Scalar by vector 2 3 向量对向量求导 Vector by vector 3 矩阵的导数 3 1
  • gym 101512 BAPC 2014 I Interesting Integers

    Problem codeforces com gym 101512 attachments vjudge net contest 186506 problem I Meaning 给出一个 正整数 n 要找尽量小的 a 和 b a lt b
  • Matrix calculus(矩阵微积分)(前四节)

    原文地址 https en wikipedia org wiki Matrix calculus 注 不要把它和几何运算或者是向量运算混淆 前言 在数学中 矩阵微积分是进行多变量微积分的一种特殊符号 特别是在矩阵的空间上 它将关于许多变量的

随机推荐

  • 关于加法溢出问题

    开个题目 关于加法溢出问题 以后想到什么情况就在这里更新吧 1 freeRTOS 的时钟节拍函数 要实现一个定时任务A 当前时钟节拍计数器xTickCount 需要延时的时钟节拍 delayTick 延时的时钟节拍时间点tickTime 由
  • 05智慧杆塔

    一张图读懂一个产业之智慧杆塔 智慧杆塔是综合承载多种设备和传感器并具备智慧能力的杆 塔等设施的总称 包括但不限于通信杆 塔 路灯杆和监控杆 智慧杆塔具备的功能由其挂载的设备和传感器决定 这些设备和传感器可通过各种通信技术接入网络和平台 并在
  • R语言实用教程薛毅清华出版社课后题答案

    有R语言实用教程薛毅课后题答案习题1 5 详情请到我的页面资源查看
  • NVMe Cli 使用教程 -- NVMe Read / Write 使用实践

    1 NVMe Write Write命令的官方说明 nvme write
  • C Primer Plus 第五章 编程练习

    第五章 编程练习 5 1 题 目 编写一个程序 把用分钟的时间转换用小时和分钟表示的时间 使用 define或者const创建一个表示60的符号常量或const变量 通过while循环让用户重复输入值 直到用户输入小于或者等于0 的值才停止
  • 网络安全工程师

    岗位职责 1 分析网络现状 对网络系统进行安全评估和安全加固 设计安全的网络解决方案 2 在出现网络攻击或安全事件时 提高服务 帮助用户恢复系统及调查取证 3 针对客户网络架构 建议合理 的网络安全解决方案 4 负责协调解决方案的客户化实施
  • CISSP-安全和风险管理

    俗话说什么是网络安全 那网络安全的基本原则有哪些呢 主要是有可用性 保密性 完整性 1 那什么是可用性 可用性的话 那就是在我们的数据和资源需要随时保持能够授权用户进行访问 用户想要访问想要用的时候 你就应该能用 而不是不能用 2 那什么是
  • Vijava 学习笔记之 DataStore(基础配置信息)

    vijava 代码 实体类 package com vmware pojo import java util ArrayList import java util Calendar 存储信息 author zhb public class
  • R语言实战笔记 基本统计分析-相关

    相关 相关系数可以用来描述定量变量之间的关系 将使用R基础安装中的state x77数据集 提供了美国50个州在1977年的人口 收入 文盲率 预期寿命 谋杀率和高中毕业率数据等 数据如下 相关的类型 Pearson Spearman和Ke
  • Markdown语法详解

    Markdown语法 标题 一级标题 一级标题 二级标题 二级标题 三级标题 三级标题 四级标题 四级标题 五级标题 五级标题 段落 前后空行超过一行 即为一个段落 标题 副标题 正文 表格 ID 用户名 昵称 1 root ROOT 2
  • Node 调试利器,前端、Node 开发必备 - VSCode JS Debug Terminal

    经常看到有同学抱怨 Node 调试麻烦或者是搞不清怎么调试各种脚本 Jest Webpack 等等 而偶尔看到的调试相关的文章又全都是在写 inspect launch json 这些方案 其实有一定学习成本 而其实在 VSCode 中早已
  • [OCCT] Open CASCADE Technology的编译(包含示例的编译)

    QQ交流群 604668232 OCCT知识库 yuque com softdev occt 持续更新 相关文档 官方文档 构建 调试和升级 官方文档 OCCT的构建 文章目录 源代码目录 编译源代码 方法一 使用官方提供的VS工程 方法二
  • 【AAAI-2019】论文整理(清单)

    AAAI 19 Accepted Papers Main Technical Track 整理自 AAAI官网 分类整理持续更新 详细文章可从arXiz org下载 CircConv A Structured Convolution wit
  • VSCode远程配置流程(详细图解)

    基本情况 基本需求 本地 Win10 系统下安装 VSCode 连接远程的服务器 Ubuntu 进行代码编写和调试 下载地址 vscode 图文安装流程 Remote SSH 远程插件 按照下图安装即可 安装完成后 弹出如下图中红色框内的控
  • VoTT使用教程

    VoTT是微软发布的用于图像目标检测的标注工具 它是基于javascript开发的 因此可以跨Windows Linux和Mac平台运行 并且支持从图片和视频读取标注 此外 其还提供了基于CNTK训练的faster rcnn模型进行自动标注
  • 如何查看本机 MySQL(DB)安装位置

    首先按住 win R 键 输入 services msc 找到正在运行的 MySQL 打开属性 之后就可以找到 文件路径了
  • 【八股】2023秋招八股复习笔记2(C++基础 & 操作系统)

    文章目录 1 内存深拷贝 代码 2 C 基础知识 虚函数了解吗 说一下static 关键字的作用 说一下C 和C 的区别 c 中四种强制 cast 转换 请说一下C C 中指针和引用的区别 请你说一下你理解的c 中的smart pointe
  • ESP32/ESP8266使用MicroPython控制DHT11/DHT22

    本教程介绍了如何使用MicroPython固件将DHT11或DHT22温度和湿度传感器与ESP32和ESP8266开发板一起使用 DHT模块 刷新MicroPython固件 要遵循本教程 您需要在ESP32或ESP8266板上安装Micro
  • 微信小程序开发入门——uni-app框架

    uni app Union Application 是一个基于Vue js的前端框架 开发规范借鉴了微信小程序 前端技能点 前后端分离 后端给接口和API文档 注重前端 用uni app框架 作用 创业团队可以更快的开发上线一个app 更容
  • 参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE)

    基础 频率学派与贝叶斯学派 http www douban com group topic 16719644 http www zhihu com question 20587681 最大似然估计 Maximum likelihood es