贝叶斯判别分析的基本步骤_贝叶斯统计的基础思想(无公式推导)

2023-05-16

贝叶斯统计的由来

发现贝叶斯逆概率的人当然就叫贝叶斯了,这哥们全名叫托马斯-贝叶斯,英国猛汉,生于1702年,跪于1761年。贝叶斯曾在苏格兰的爱丁堡大学学习神学和数学。后来,他子承父业成为了一名牧师,并在业余时间研究数学。

贝叶斯和牛顿是同一个时代的人,在17、18世纪,有很多人都是一边做着牧师的职业,一边进行科学方面的研究,其中也有相当一部分人在研究数学。

贝叶斯这辈子就写过一篇数学论文,题目叫《关于概率中的某一问题的解法的考察》。贝叶斯逆概率的起点就在这片文章当中。但是贝叶斯本人好像并不是很care他写的这篇论文,他长期将其放置在一旁,所以这篇文章的具体写成时间也无从考证,后来人推测应该是在1748年或1749年之间写成的。

将贝叶斯发现公之于众的,是他的好朋友──理查德-普莱斯。普莱斯受贝叶斯亲戚所托,调查贝叶斯留下来的文献,才发现了刚才提到的那篇论文。普莱斯将这篇论文的思路进行整理之后,在1764年在皇家学会的《哲学纪要》上发表了这片论文。

但是,和贝叶斯本人一样,当时的学者们也并不关注普莱斯这篇报告。后来,法国著名数学家拉普莱斯注意到了这个东西,才使大家开始关注起贝叶斯的思想。拉普拉斯这人算是个通才,在天文、物理、数学方面都有所研究,并都取得了大量的优秀成绩。在了解到贝叶斯的研究之前,拉普莱斯就已经写过一篇关于贝叶斯逆概率的文章,但构想较浅显。之后,拉普莱斯听说了到了普莱斯的报告,意识到这个报告可能会使自己的那个初期研究得到进一步完善。1781年左右,拉普莱斯将贝叶斯逆概率公式改编完善为今天的这般模样。至此,贝叶斯公式完全成型。

贝叶斯统计的核心思想

在相当长得一段时间内,由于人们对贝叶斯统计思想了解的不够充分,导致人们认为贝叶斯统计是不可靠的,人们认为贝叶斯统计涉及的概率是“主观性的”。人们认为科学一定得是客观的,掺杂了人类主观意志的东西无法称为科学。正是因为如此,贝叶斯统计被注重客观性的科学界打入冷宫,并给贝叶斯统计扣上了“伪科学”的帽子,直接导致它沉寂了很久。

但实际上,正是因为贝叶斯思想具有这所谓的“主观性”,才使得贝叶斯统计变的强大且便利,贝叶斯统计的优势在于:即使在数据很少的情况下也可以进行推测,随着数据量的增大,推测也会越来越准确,以及可以对所做信息做出瞬时反应,自动升级推测。

贝叶斯统计的推理过程

关键点:信息的增加会导致概率的变化

步骤:

  1. 设定先验概率
  2. 通过给定的信息来设定条件概率
  3. 将先验概率转化为后验概率

一句话总结:后验概率 = 先验概率 * 影响因素


用实际的例子来理解贝叶斯统计思想要比用上面列出的干巴巴概念要容易多了,我就借用《统计学关我什么事》这本书中的例子来解释一下贝叶斯推理的基本方法。

  • 1-1 目的:通过贝叶斯推理来辨别商场里面的顾客到底是属于“真正买东西的人”,还是“随便逛逛的人”。
    这是超市售货员最关心的问题,如果一个人是真正要买东西的人,那么售货员可以对其进行讲解,并使其买下商品,双方都开心。若是一个人只是想随便逛逛,那么售货员对其讲解的话,不仅浪费了时间还没有获得收益,还会使顾客产生厌恶情绪。所以分辨顾客类型是售货员的必备素质,经验老道的售货员就是那些可以在短时间内分辨出顾客类型的人。
    这种售货员用来判断顾客类型的方法就非常适用贝叶斯统计,我们可以借助这个例子来一窥贝叶斯统计的核心思想框架。(现在也有很多人认为人的大脑就是利用贝叶斯统计来进行推理的)
  • 1-2 步骤一:设定先验概率
    现在假设你是售货员,突然一位顾客进到了你的店里,此时,你就要去判断这名顾客到底是”真正买东西的人“还是”随便逛逛的人“,只有做出了判断,你才能决定要不要对这名顾客出时间。

推断的第一步:通过对大量进店顾客的观察,将两种顾客(真正买东西的人、随便闲逛的人)按照比例的数值分配这句话意思是,假设刚才进店的顾客一定属于我们刚才定义的两种中的一种,以此为前提,该顾客为第一种或是第二种的概率各是多少?

在贝叶斯统计学中,这种"属于某种类别的概率"有个专有名词,叫“先验概率”。“先验”的意思是:在获得某种信息之前。而这个“信息”指的就是进店顾客是否会进行询问售货员。通过顾客是否会询问售货员这一“信息”,我么可以对顾客类型做出判断。那“先验概率”的意思就是指,在“顾客询问”和“顾客没有询问”这件事没有发生之前,对顾客类型进行一个预先判断。

通常,先验概率可以通过经验进行判断。根据售货员的经验,平均每5个顾客就有一个是“真正要买东西的人”,也即是说这部分顾客占全体顾客的20%(0.2),那么剩下“随便逛逛”的部分就占80%(0.8)。这两个数字,就是顾客类型的“先验概率

再顾客进行询问这一行为之前,便对顾客的类型进行判断,看顾客是属于“真正买东西的人”还是“随便逛逛的人”,这个过程叫做“某一类别的先验分布”。画成图就是下面这样:

图中的矩形被分为两部分,两部分所占面积比例为,0.2和0.8。用面积来理解贝叶斯概率思维以及计算都会非常的方便。

此图可以理解为:将顾客群整体分为两种不同的情况。这意味着每个进门的顾客我们不知道它到底属于A还是B类人,但是我们可以先在大脑中建立起一个大致的印象。

我们这里将矩形面积设置为0.2和0.8是由讲究的,因为在概率的世界里,我们要让这种可能性的数值相加为1。实际上你设置任何比例是1:4的数字都可行,符合这个比例可能性实际上有无数种,但是我们只选取那个让概率相加为1的那一种,这种处理叫“标准化条件”,就像我们在学习学习三角函数的时候,也会将圆形的半径设置为单位长度1一样。

  • 1-3 步骤二:设置“向店员询问”事件的条件概率
    这里我们要做的事是:为“真正买东西的人”和“闲逛的人”分别设定“向店员询问”事件的概率。上一步我们讲到,即使没有相关经验,我们也可以设定先验概率。但是此时的“各个分类(A和B)询问店员的概率”,必须是基于一定的经验、统计、和实验的数值。
    假设下图是我们经过一天的观察统计出来的数据:

所有顾客向店员有过“询问”的统计结果得出的概率值


从上图可以看出,“买东西的人”询问店员的概率是0.9,而“随便逛逛的人”询问店员的概率只有0.3。表格中的数字表示“某一特定类别(A和B)采取某种行动的概率”,这个概率就是我们所说的“条件概率”。
接着我们将两个类别的顾客,进一步按照是否会询问店员的条件进行分类,可以分成四个小类别,如下图:


一共有四种可能性:A:来买东西的人询问店员、B:来买东西的人不询问店员、C:闲逛的人询问店员、D:闲逛的人不询问店员,这四种情况分布在矩形的四个区域。各个区域所表示的概率与每个长方形的面积相等,这就是前面进行标准化处理的好处。长方形面积很好求得,如下图:


然后可以确定一下这四个“可能世界”(所有可能得情况)的概率之和:
A : 0.2 x 0.9 = 0.18 B : 0.2 x 0.1 = 0.02
C : 0.8 x 0.3 = 0.24 D : 0.8 x 0.7 = 0.56
(A+B) + (C + D) = 1

  • 1-4 步骤三:通过观察到的情况,排除“不可能行为”
    现在,想象你就是那个店员,你此时面临的情况是:顾客上前询问商品价格。这也意味着,你观察到了顾客的一种行为。这为“可能的世界”增添了一种限制条件。
    这条限制条件的影响就是,你可以不用考虑那些没有上前询问价格的顾客了。上一节提到,顾客可以分为“真正要买东西的人”和“随便逛逛的人”两类,而这两类人可以做出两种行为,即“询问价格”和“不询问价格”,这样,我们一开始构建的“可能世界”就由2种情况扩展到4种情况了。
    而此时的你又观测到了顾客“询问”这一行为,因此,你便可以无视掉那些“不询问”的可能性了,“可能世界”由于限制条件的改变,4种情况就变成了2种情况。化成图就是下面这样:


这样,两种可能性消失了,那伴随着这种可能性的消失,带来的影响就是:概率会发生变化。图中下半部分所代表的概率全部都消失了,即B和D消失了,那么我们便可以获得一些新的数值了。

  • 1-5 步骤四:推导”来买东西的人“的”贝叶斯逆概率“
    刚才讲到,观察到”询问“这一行为之后,我们中间构建的有4种可能情况的”可能世界“被限制到了2种情况。即:现在的顾客要么是”真正想买东西的人来询问店员“和”随便逛逛的人来询问店员“,只剩下这两种可能性了。数值如下图:

我们前面也讲过对于概率数值要进行”标准化“处理,即:所有可能性的概率数值加和要为1(很重要。前面有四种情况时,概率值的加和为1,现在只剩下来两种情况,我们依旧还要使用”标准化“处理的办法,让其概率值加和变为1。
现在剩下两个小矩形,就是一开始的A和C,他们的面积分别是:0.18和0.24。那我们现在就进行一些计算:
0.18 : 0.24 等价于 0.18/0.18+0.24 : 0.24 / 0.18+0.24
最后结果为3/7 : 4/7 用图表示的话就是这样:

从上面我们可以看出,上前询问的顾客为购买者的概率为:3/7。这个概率被称为”贝叶斯逆概率“也称为”后验概率“。你应该注意到了,为什么叫”逆概率“,关键点就在于这个”逆“字,我们一开始是通过对顾客设定类别,然后观察他们的行为,最后得到了这个概率,这个过程是”由原因==》结果“。而”逆概率“却是从最终的概率结果,来反推”原因“,这个过程是”由结果==》原因“,所以被称为”逆概率“。

总结

一开始,我们对于顾客是”真正购买者“还是”闲逛的人“的概率判断二八开,即:真正购买者:闲逛者 = 0.2 : 0.8。而我们经过“贝叶斯统计”方法,并且在观察到“询问”这一行为后,进门顾客为“真正购买者”的概率就变为3/7了,概率提升至原来的两倍以上,换句话说,数值更新了,这种更新操作就叫做“贝叶斯更新”。

所以,贝叶斯推理可以简单的总结为:通过观察到的某个“行为”,将先验概率转换为后验概率的一种操作。而将刚才的推算方法整合起来,就是“贝叶斯统计学”。


PS:

贝叶斯推理的主要步骤:

  1. 通过经验、客观数据甚至是主观数值(这是贝叶斯统计之所以强大的关键点之一,目前为了理解方便没有涉及,后面会讲到)来设定“先验概率”
  2. 观察到某种“行为”,并且根据这种行为对先验概率造成的影响来设定“条件概率”
  3. 根据观察到的行为,排除先验概率中的某些可能性
  4. 最后将先验概率更新为“后验概率”,这一整个过程就是“贝叶斯更新”
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

贝叶斯判别分析的基本步骤_贝叶斯统计的基础思想(无公式推导) 的相关文章

随机推荐