大数据分析陷阱与Simpson’s Paradox(辛普森悖论)

2023-10-27

 在大数据分析时,你有没有遇到这样一种奇怪现象:当分开看数据的时候会得到一种结论,但是合起来之后发现情况却完全改变?这就是著名的辛普森悖论。它总是隐藏在大数据之中,成为大数据分析的陷阱之一。

 

 

1

含义

 

辛普森悖论(Simpson’s Paradox)是概率和统计学中的一种现象,即几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种趋势消失或反转。

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入

2

案例

 

案例1:肾结石治疗

 

这是一个真实案例,比较了两种肾结石治疗的成功率。其中方案A包括所有开放式外科手术,方案B仅涉及小的穿刺,

 

小肾结石和大肾结石的治疗的成功率和治疗案例数如下表所示:

(括号中的数字表示:成功案例数/治疗总案例数)

 

从表格中可以发现治疗方案A的成功率更高,那是否我们就应该选择方案A呢?

 

我们把两种治疗方案进行总计,却发现方案B的成功率更高。

 

案例2:运动与患病的关系

 

假设我们有关于每周运动小时数与两组患者(50岁以下和50岁以上患者)患病风险的数据。下图显示根据年龄分层的疾病概率与每周运动小时数的关系图。我们清楚地看到其呈现负相关关系,表明每周运动水平的增加可以使患病的风险降低。

 

 

当我们将数据组合在一起:相关性完全逆转了! 如果只显示这个数字,我们会得出结论,运动增加了疾病的风险!这与常理相悖。

 

 

3

原理

 

数据中存在多个单独分布的隐藏变量,不当拆分时就会造成辛普森悖论。这种隐藏变量被称为潜伏变量,并且它们通常难以识别。而这种潜伏变量可能是由于采样错误或者数据领域本身属性造成的。

 

1)如案例1所示,可能是由于我们的采样方法存在误差导致加权结果出现问题,不同大小的结石中对于不同方法的应用数量有较大的差异,没有做到正确的控制变量。

 

2)如案例2所示,年龄就是一个与患病非常相关的潜伏变量,如果绘制患病概率与年龄的关系,我们可以看到患者的年龄与疾病概率强烈正相关。

 

 

随着患者年龄的增加,患病的风险增加。所以即使运动量相同,老年患者也比年轻患者更容易患病。

 

4

启示

 

在大数据分析时代,我们尝试在很短的时间内检测模式并做出决策。 时间越短,出现短期误导的可能性越大,越不可能找到被隐藏的真正趋势,导致错误的决策和行动。

如果我们依赖于经过严格模板化和打包的软件并且没有意识到数据的驱动因素和限制,那么这些偏见的出现概率会很大。

 

辛普森悖论警示我们在大数据分析和数据科学过程中要更加注意以下几个方面:

 

1)不能单纯看数据本身。直接计算会得出错误的结论,我们必须考虑数据生成过程——因果模型——决定数据,减少潜伏变量的影响。

2)对数据保持怀疑态度。数据分析中我们总是试图从单一的数据观点来看待整个事件,而不是用理性认真思考并深入挖掘。特别是当有人要销售产品或实施议程时,我们必须对这些数字保持批判性思维。

3)关注数据采样的正确性。了解我们是否正在查看采样不良的数据或悖论的真实案例,这一点非常重要,更可能早的避免决策错误的发生。

4)找到数据中的潜伏变量。尽可能多地检查、重组合和重采样数据。如果从不同分类中可以得出多个不同的结论,我们需要知道我们寻找的重点,并用最佳的数据观点来公正地表达真相。

5)很强的洞察力和领域知识。如果没有足够的洞察力和领域知识,我们无法找到隐藏在数据背后的潜伏变量,使得简单的统计分析也可以彻底误导和激发错误的决策。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据分析陷阱与Simpson’s Paradox(辛普森悖论) 的相关文章

  • 喜报|华测导航荣获“张江之星”领军型企业称号

    近日 2023年度 张江之星 企业培育名单发布 上海华测导航荣获2023年度 张江之星 领军型企业称号 据悉 张江之星 企业培育是上海科创办为落实 关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见 张江高新区加快世界领先科技园区
  • socket网络编程几大模型?看看CHAT是如何回复的?

    CHAT回复 网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型 一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求 不需
  • 什么是充放电振子理论?

    CHAT回复 充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型 这个模型把ENSO现象比喻成一个 热力学振荡系统 在这个模型中 ENSO现象由三个组成部分 充电 Char
  • 利用CHAT上传文件的操作

    问CHAT autox js ui 上传框 CHAT回复 上传文件的操作如果是在应用界面中的话 由于Android对于文件权限的限制 你可能不能直接模拟点击选择文件 一般来说有两种常见的解决方案 一种是使用intent来模拟发送一个文件路径
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 渗透测试常用工具汇总_渗透测试实战

    1 Wireshark Wireshark 前称Ethereal 是一个网络分包分析软件 是世界上使用最多的网络协议分析器 Wireshark 兼容所有主要的操作系统 如 Windows Linux macOS 和 Solaris kali
  • 毕业设计:基于卷积神经网络的验证码识别系统 机器视觉 人工智能

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 2 1 字符分割算法 2 2 深度学习 三 检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实
  • 作物叶片病害识别系统

    介绍 由于植物疾病的检测在农业领域中起着重要作用 因为植物疾病是相当自然的现象 如果在这个领域不采取适当的护理措施 就会对植物产生严重影响 进而影响相关产品的质量 数量或产量 植物疾病会引起疾病的周期性爆发 导致大规模死亡 这些问题需要在初
  • 2024 人工智能与大数据专业毕业设计(论文)选题指导

    目录 前言 毕设选题 选题迷茫 选题的重要性 更多选题指导 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生
  • 做大模型也有1年多了,聊聊这段时间的感悟!

    自ChatGPT问世以来 做大模型也有1年多了 今天给大家分享这一年后的感悟 过去一年应该是AI圈最万千瞩目的一年了 大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注 以至于有一年的时间好像经
  • 机器学习算法实战案例:LSTM实现多变量多步负荷预测

    文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
  • 2023最新pytorch安装(超详细版)

    前言 一 判断是否有Nvidia 英伟达显卡 二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功 三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
  • 人工智能 AI 如何让我们的生活更加便利

    每个人都可以从新技术中获益 一想到工作或生活更为便利 简捷且拥有更多空余时间 谁会不为之高兴呢 借助人工智能 每天能够多一些空余时间 或丰富自己的业余生活 为培养日常兴趣爱好增添一点便利 从电子阅读器到智能家居 再到植物识别应用和智能室内花
  • AI在保护环境、应对气候变化中的作用

    对于AI生命周期数据领域的全球领导者而言 暂时搁置我们惯常的AI见解和AI生命周期数据内容产出 来认识诸如世界地球日这样的自然环境类活动日 似乎是个奇怪的事情 我们想要知道 数据是否真的会影响我们的地球环境 简而言之 是 确实如此 但作为一
  • 【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 有 无策略奖励 2 2 训练结果1
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • ESM10A 消除对单独 PLC 的需求

    ESM10A 消除对单独 PLC 的需求 ESM10A 可以消除对单独 PLC 的需求 该程序是在 PC 上开发的 然后使用免费提供的简单易用的 EzSQ 软件下载到逆变器 似乎这些改进还不够 日立还在 SJ700 中添加了其他新功能 例如
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    文章目录 摘要 1 问题的提出 引出当前研究的不足与问题 KGC方法 LLM幻觉现象 解决方案 2 数据集和模型构建

随机推荐

  • Spring源码深度解析:九、bean的获取③ - createBeanInstance

    一 前言 文章目录 Spring源码深度解析 文章目录 createBeanInstance 的流程图如下 让我们根据流程图一步一步的学习一下spring是如何创建bean的吧 这篇文章是接着 Spring源码深度解析 八 bean的获取
  • 基于TensorFlow的CNN卷积网络模型花卉分类(1)

    一 项目描述 使用TensorFlow进行卷积神经网络实现花卉分类的项目 加载十种花分类 建立模型后进行预测分类图片 环境 win10 TensorFlow gpu 1 12 0 pycharm 训练集 训练数据存放路径为 D LearnM
  • 用bat批量重命名不同文件夹下的同名文件

    起因 手机B站离线的视频目录是这个样子的 视频的每一个分P都会生成一个文件夹 包含视频基本资料和一个名为80的文件夹 这个文件夹里放着后缀名为m4s的音频和视频文件 现需要使用电脑播放下载的视频 那么第一步就是更改视频和音频文件的后缀名 百
  • 防火墙总结

    一 什么是防火墙 防火墙分为软件防火墙和硬件防火墙 他们的优缺点 硬件防火墙 拥有经过特别设计的硬件及芯片 性能高 成本高 当然硬件防火墙也是有软件的 只不过有部分功能由硬件实现 所以硬件防火墙其实是硬件 软件的方式 软件防火墙 应用软件处
  • Failed to load module “canberra-gtk-module“ 或 Using GTK+ 2.x and GTK+ 3 in the same process is not

    项目场景 ubuntu安装matlab之后 运行时报错Failed to load module canberra gtk module 如下 原因分析 未安装Matlab运行所需要的依赖 执行如下命令 sudo apt get insta
  • 深入浅出UML类图(二)

    类与类之间的关系 1 在软件系统中 类并不是孤立存在的 类与类之间存在各种关系 对于不同类型的关系 UML提供了不同的表示方式 1 关联关系 关联 Association 关系是类与类之间最常用的一种关系 它是一种结构化关系 用于表示一类对
  • 树的四种遍历C/C++实现

    树的四种遍历C C 实现 树的四种遍历C C 实现 结构定义 先序创建树 先序遍历 中序遍历 后序遍历 层次遍历 总代码 给懒人下载运行用 运行示例 树的四种遍历C C 实现 备考期末 懂得都懂 手敲遍代码 比较懒 都是递归形式 结构定义
  • error LNK2019: 无法解析的外部符号 WSAStartup,该符号在函数 “public:

    error LNK2019 无法解析的外部符号 gethostname 该符号在函数 public static bool cdecl gdcm System GetHostName char const GetHostName Syste
  • Fragment 实现简易新闻界面(适配手机与Pad)

    一 前言 Android 在 Android 3 0 API 级别 11 中引入了 Fragment 主要目的是为大屏幕 如平板电脑 上更加动态和灵活的界面设计提供支持 由于平板电脑的屏幕尺寸远胜于手机屏幕尺寸 因而有更多空间可供组合和交换
  • 前端白屏检测方案

    早期因为浏览器 技术 兼容性等诸多问题 导致网页的显示效果非常的单一 基本都是静态页 后续随着Angular React Vue等前端框架的出现 采用SPA单页面应用的方案越来越多 用户和企业对于页面的稳定性 性能有了更高的诉求 根据Abe
  • 为什么我们的自动化测试“要”这么难

    为什么我们的自动化测试 要 这么难 笔者在别的贴子里面曾提过 自己所在部门的 自动化测试经历了几次步进式的建设 都具有阶段性的成果 但是总的看来却不是一个成功的案例 因为赶进度 仓促的投入让一大堆的脚本质量比较低下 有几个测试组由于没有人力
  • Selenium

    Selenium 参考崔庆才爬虫 安装 pip install selenium 注意 需要下载Chrome的 webdriverwebdriver 下载完成后解压到与python exe可执行文件同一目录下 基本使用 from selen
  • this.getClass().getClassLoader().getResourceAsStream找不到文件

    this getClass getClassLoader getResourceAsStream 路径正确 但是找不到文件时 要检查对应xml文件是否放到了这个地方 只有放到了才能找到
  • 安卓手机GPU OpenCL总结

    前段时间 把市面上手机GPU OpenCL支持情况做了一个总结 总结如下 目前 手机 GPU 市面有四个公司产品 Qualcomm Imagination Technologies ARM Vivante 分别对应的产品如下 所有表格均是按
  • Springboot课程试题库管理系统毕业设计源码271129

    Springboot 计算机网络原理 课程试题库管理系统 摘 要 信息化社会内需要与之针对性的信息获取途径 但是途径的扩展基本上为人们所努力的方向 由于站在的角度存在偏差 人们经常能够获得不同类型信息 这也是技术最为难以攻克的课题 针对 计
  • 录制、回放乱码问题解决办法和快照问题解决办法.

    1 录制的脚本乱码 LR录制的脚本中可能会有乱码 主要是当URL中有中文时 通过如下问题可以解决此问题 a Go to Vugen gt Tools gt Recording Options gt Advanced b Check the
  • 失业的程序员(六):加班

    本系列前章 失业的程序员 一 二 三 四 五 一 本文前戏 谈爱 每次开文我总要说一些看起来和本文其实关系不大的啰嗦话 也希望各位观众能够习惯 稍微花费大家几分钟时间便可进入正文 再一次跪求谅解 前几天在家看 我是歌手 复活赛那期 着实震撼
  • 1.开始学习前端(HTML+CSS+JavaScript)学习记录

    1 了解前端 Web开发 对于网页开发 最基础的 最核心的技术就是html css javascript 简称js 这三个技术也被称为前端开发 新三剑客 在Web1 0时代的 网页制作 网页三剑客是指网站的开发工具 Dreamweaver
  • 2009年8月21日

    开通博客了 new Start 1 加了的Active控件Windows Media Player如何能使用快进FastForward 和快退FastForward 这两个功能呢 给控件关联一个control变量 然后调用FastForwa
  • 大数据分析陷阱与Simpson’s Paradox(辛普森悖论)

    在大数据分析时 你有没有遇到这样一种奇怪现象 当分开看数据的时候会得到一种结论 但是合起来之后发现情况却完全改变 这就是著名的辛普森悖论 它总是隐藏在大数据之中 成为大数据分析的陷阱之一 1 含义 辛普森悖论 Simpson s Parad