辛普森悖论及贝叶斯解释

2023-11-13

辛普森悖论(Simpson’s Paradox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(from 百度百科)关于辛普森悖论的统计学解释是贝叶斯置信网络在因果推论中的重要应用。

在这里插入图片描述

1 问题描述

考虑一个关于疾病用药的病人恢复情况的医学实验。两组实验分别在40个男性和40个女性中进行。实验数据如下所示:

在这里插入图片描述

实验探究的问题是:药物是否会提高病人的康复机率?根据第一个表格中的男性实验结果,服用药物和未服用药物的康复机率分别为60%和70%在第二个表格中的女性实验结果中,服用药物和未服用药物的康复机率分别为20%和30%。因此,从两组不同性别的分别实验可以看出,服用药物的康复机率更小。然而,如果不考虑性别信息,综合两组实验数据得到第三个表,服用药物和未服用药物的康复机率分别为50%和40%,由此得到与上面两组实验矛盾的结论,服用药物有助于疾病康复。这就是辛普森悖论的一个典型例子。

2 贝叶斯解释

统计学的观测证据(observation evidence)和介入证据(interventional evidence)往往是不同的,对于设计药物(D)对疾病恢复(R)的因果推论,用条件概率表示应该是 P ( R ∣ D ) P(R|D) P(RD),而如果增加性别因素(G),条件概率为 P ( R ∣ G , D ) P(R|G,D) P(RG,D),二者是不同的概念。

(1) 不考虑性别的影响的话,可以得到
P ( R ∣ D ) = ∑ G P ( R ∣ G , D ) P ( G ) P ( D ) ∑ G P ( D ) P ( G ) = ∑ G P ( R ∣ G , D ) P ( G ) P(R|D)=\frac{\sum_G{P(R|G,D)P(G)P(D)}}{\sum_G{P(D)P(G)}}=\sum_G{P(R|G,D)P(G)} P(RD)=GP(D)P(G)GP(RG,D)P(G)P(D)=GP(RG,D)P(G)服用药物D=1,未服用D=0,带入表格数据有:
P ( R ∣ D = 1 ) = 0.6 × 0.5 + 0.2 × 0.5 = 0.4 P(R|D=1)=0.6\times 0.5+0.2\times 0.5=0.4 P(RD=1)=0.6×0.5+0.2×0.5=0.4 P ( R ∣ D = 0 ) = 0.7 × 0.5 + 0.3 × 0.5 = 0.5 P(R|D=0)=0.7\times 0.5+0.3\times 0.5=0.5 P(RD=0)=0.7×0.5+0.3×0.5=0.5因此,服用药物的恢复机率是减小的的。

(2)考虑性别的影响的话,以男性G=1,女性G=0,由表中数据可以直接得到

P ( R ∣ G = 1 , D = 1 ) = 0.6 P(R|G=1,D=1)=0.6 P(RG=1,D=1)=0.6 P ( R ∣ G = 1 , D = 0 ) = 0.7 P(R|G=1,D=0)=0.7 P(RG=1,D=0)=0.7 P ( R ∣ G = 0 , D = 1 ) = 0.2 P(R|G=0,D=1)=0.2 P(RG=0,D=1)=0.2 P ( R ∣ G = 0 , D = 0 ) = 0.3 P(R|G=0,D=0)=0.3 P(RG=0,D=0)=0.3因此,不管服用药物与否男性恢复机率都大于女性。

(3)引入无关影响因素 P ( D ∣ G ) P(D|G) P(DG)
P ( D ∣ G ) P(D|G) P(DG)是指不同性别的服用药物比例,这个数值大小对于比较药物对疾病作用,还是药物对性别作用都是无关变量。
实际上,第三个表格中的联合计算方式是由以下公式得到的:
P ( R ∣ D ) = ∑ G P ( R , G , D ) P ( G ) P ( D ) = ∑ G P ( R ∣ D , G ) P ( D ∣ G ) P ( G ) P ( D ) P(R|D)=\frac{\sum_G{P(R,G,D)P(G)}}{P(D)}=\frac{\sum_G{P(R|D,G)P(D|G)P(G)}}{P(D)} P(RD)=P(D)GP(R,G,D)P(G)=P(D)GP(RD,G)P(DG)P(G)这样做的话就违背了分层抽样原则,探究药物对疾病恢复机率的影响,如果按照性别不同分层,而对于每个分层里面应该进行随机抽样,即服用药物和未服用药物的人数应该一致。考虑不同性别对恢复机率的影响,男性的恢复机率(服药与未服药人数相同时)为
P ( R ∣ G = 1 ) = 0.5 × ( 0.6 + 0.7 ) = 0.65 P(R|G=1)=0.5\times(0.6+0.7)=0.65 P(RG=1)=0.5×(0.6+0.7)=0.65女性恢复机率(服药与未服药人数相同时)为:
P ( R ∣ G = 1 ) = 0.5 × ( 0.2 + 0.3 ) = 0.25 P(R|G=1)=0.5\times(0.2+0.3)=0.25 P(RG=1)=0.5×(0.2+0.3)=0.25由此可见,在不考虑药物作用下,男性的恢复机率远高于女性。而题干中的男性和女性分别为3:1和1:3的不同服用药物人数比例,直接导致了服药样本中高恢复机率的男性较多,低恢复机率的女性较少,而未服药样本反之,二者取样并不均匀,因此,由性别带来的取样差异性导致了错误的实验结论。

总结

综上,辛普森悖论产生的原因来自于抽样调查时违背了抽样对象的随机性原则,使得与实验结论不相关的变量影响到了实验结果。在现实生活中,“统计平均陷阱”是辛普森悖论的一个重要表现形式。例如全国城市房价同比涨跌幅度,由于城市发展程度不同,各个城市房价不同,随着城市化进程加快,中小城市的房产交易规模扩增速度高于大城市,所以就会出现这样的情况:全国各个城市的房价都在增长,而房价均值同比却在下降。原因是由于中小城市的低价房产同比交易量高于大城市的高价房产同比交易量,所以全国总体房价的均值就被拉低了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

辛普森悖论及贝叶斯解释 的相关文章

  • 树莓派详解

    参考文献 1 树莓派教程第一课 树莓派简介 十分钟玩转系列入门篇 哔哩哔哩 bilibili
  • 计算机网络断开后怎么连接,电脑网络断开怎样重新连接

    大家好 我是时间财富网智能客服时间君 上述问题将由我为大家进行解答 电脑网络断开重新连接的方法是 1 点击右下角网络图标 点击 打开网络和共享中心 2 点击 更改适配器设置 3 点击右键启用网络即可 网络是由节点和连线构成 表示诸多对象及其

随机推荐

  • 腾讯高性能RPC开发框架Tars实现服务治理(微服务)

    Github https github com Tencent Tars 1 介绍 Tars是基于名字服务使用Tars协议的高性能RPC开发框架 同时配套一体化的服务治理平台 帮助个人或者企业快速的以微服务的方式构建自己稳定可靠的分布式应用
  • C++ string类的实现

    个人简介 作者简介 大家好 我是菀枯 支持我 点赞 收藏 留言 格言 不要在低谷沉沦自己 不要在高峰上放弃努力 前言 在C语言中 没有专门用来表示字符串的类型 C语言的字符串是一系列以 0 为结尾的字符的集合 虽然C语言为这样的字符串提供了
  • vc++ 编写Windows服务 1053错误

    http xk861119 blog 163 com blog static 16327042010109102237317 建立一个服务程序的最简单的方法是用VC中的ATL COM向导 主菜单中选择新建 然后选Projects中的ATL
  • 京瓷6525_京瓷6525扫描怎么设置?

    本文中要用到的快捷键 Alt 一般为空格左侧第一个按键 Win 一般为空格左侧第二个按键 一般按键上标识为微软logo 一 桌面新建文件夹 名自定义 数字或字母 不能用汉字 例如我的 6525 右键属性 共享
  • php- 静态代码检测

    1 安装 PhpMetrics 可以直接 composer 全局安装 composer global require phpmetrics phpmetrics 安装完毕之后 可以这样来运行命令分析代码复杂度 phpmetrics repo
  • 关于在Unity 中动画的某一帧执行函数

    打开动画的inspector 选择Events 添加一个帧 然后再Function中输入你需要执行的函数名
  • ICS计算机系统大作业

    计算机系统 大作业 题 目 程序人生 Hello s P2P 专 业 计算机学院 学 号 120L020427 班 级 2003004 学 生 易焯平 指 导 教 师 史先俊 计算机科学与技术学院 2022年5月 摘 要 几乎全世界的程序员
  • 通俗理解PCA降维作用

    概述 本文主要介绍一种降维方法 PCA Principal Component Analysis 主成分分析 降维致力于解决三类问题 降维可以缓解维度灾难问题 降维可以在压缩数据的同时让信息损失最小化 理解几百个维度的数据结构很困难 两三个
  • Python设置excel单元格格式

    文章目录 xlwt 模块简介 设置数字的格式 设置字体 设置对齐方式 设置边框 设置 填充 设置保护 xlwt 模块简介 xlwt 是 python中一个用来操作 excel 文件的库 其中 封装了很多常用操作 本文主要讲解使用该库在生成e
  • elememt el-tree使用(样式修改+设置为单选,不含父节点)

    elememt el tree使用 样式修改 设置为单选 不含父节点 最近在使用element做练习 就单纯的想对使用的组件和功能做一下下记录 v 直接在elememt官网找自己想要使用的组件就好 html
  • 【算法提升】——中心扩散法(最长回文子串和回文子串)

    中心扩散法常用来解决回文子串的问题 如最长回文子串和回文子串的问题 最长回文子串 给你一个字符串 s 找到 s 中最长的回文子串 解题思路 从每一个位置确定回文子串中心点 回文子串向两边扩散的起始位置 向左右两边扩散进行比较 如果是 bab
  • LCD 亮度相关(背光) 正负压相关

    LCD 亮度相关 背光 kernel msm 3 18 drivers video msm mdss mdss fb c 调用led classdev register 注册lcd backlight sys class leds lcd
  • Lua的string和string库总结

    Lua有7种数据类型 分别是nil boolean number string table function userdata 这里我总结一下Lua的string类型和string库 复习一下 以便加深记忆 个人认为string是Lua编程
  • 全栈工程师的职业前景及就业环境情况说明

    本篇文章主要讲解全栈工程师的职业前景和就业趋势 作者 任聪聪 日期 2023年4月20日 全栈工程师顾名思义就是会一个技术栈领域的所有客户端技术 如web全栈即前后端技术栈都会的工程师 如web pc app都会的则也是全栈 大全栈 故此全
  • 网络---因特网的概述

    因特网的概述 网络 互联网 因特网 网络 许多计算机连接在一起 互联网 internet 许多网络连接在一起 因特网 全球最大的一个互联网 Internet和广域网 局域网 覆盖范围小 自己花钱买设备 带宽固定 10M 100M 1000M
  • 关于ER图和UML图之间的对比

    ER图与UML图 ER图 实体 联系图 Entity Relation Diagram 用来建立数据模型 在数据库系统概论中属于概念设计阶段 ER图提供了表示实体 即数据对象 属性和联系的方法 用来描述现实世界的概念模型 构成E R图的基本
  • React项目 加入 TS

    1 全局安装ts npm i g typescript 2 创建tsconfig json tsc init 修改tsconfig json 开启jsx和allowJs配置 3 安装开发环境依赖 npm install save dev t
  • 数据分析:Pandas之Series用法总结

    文章目录 Series 一 导入Series 二 创建Series 1 使用列表或者numpy进行创建 默认索引为0到N 1的整数型索引 2 使用字典创建 推荐使用 三 Series的索引和切片 1 显式索引与切片 2 隐式索引与切片 四
  • 域名系统由什么服务器组成,域名(DNS)的有那三个组成部分

    域名制度 域名 DNS 的有那三个组成部分 DNS由下面三个部分组成 域名空间和资源记录 域名空间是一个树状结构 资源记录是与名字相关的一些数据 从概念上说 每个结点和域名空间树的叶子结点都有一定的信息 而查询是要查询出一些与之相关的特定信
  • 辛普森悖论及贝叶斯解释

    辛普森悖论 Simpson s Paradox 亦有人译为辛普森诡论 为英国统计学家E H 辛普森 E H Simpson 于1951年提出的悖论 即在某个条件下的两组数据 分别讨论时都会满足某种性质 可是一旦合并考虑 却可能导致相反的结论