如何理解卡方列联表

2024-02-20

我有几个分类特征:

['Gender',
 'Married',
 'Dependents',
 'Education',
 'Self_Employed',
 'Property_Area']

from scipy.stats import chi2_contingency
chi2, p, dof, expected = chi2_contingency((pd.crosstab(df.Gender, df.Married).values))
print (f'Chi-square Statistic : {chi2} ,p-value: {p}')

output:

Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19

我如何从这些统计数据中知道这些特征是否彼此独立?

我正在尝试构建一个分类模型,所以我只想知道这些分类列对于预测我的目标变量是否有用。


列联表在统计学中用来总结几个之间的关系绝对的变量。

在您的示例中,两个变量之间的列联表Genderand Married is a 频率这些变量的表同时呈现。

A 卡方检验在列联表上进行可以测试是否关系存在变量之间。这些效果被定义为行和列之间的关系。


scipy.stats.chi2_contingency https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.chi2_contingency.html计算 -默认情况下- 皮尔逊卡方统计量 https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test.

此外,我们感兴趣的是Sig(2-Tailed) https://www.statisticshowto.datasciencecentral.com/sig2-tailed-interpreting-results/这是您示例中的 p 值。

The p-value是反对a的证据零假设. The smallerp 值,strong你应该的证据reject原假设。

你的情况的原假设是依赖列联表中观察到的频率。


选择显着水平 -alpha as 5%; your p-value is 4.502328957824834e-19远小于.05表明列联表的行和列是独立的。一般来说,这意味着有必要解释列联表中的单元格。

在这种特殊情况下,这意味着Male or Female(即性别)是not不同级别的分布相似婚姻状况(即已婚、未婚)。

所以,结婚可能是一种性别比另一种性别更重要的地位!


Update

根据你的评论,我发现你对这个测试有一些疑问。

这个测试基本上告诉你变量之间的关系是否是重要的(即可以代表人口)或来自chance!

因此,如果显着性水平较高(高 p 值),则意味着变量之间存在显着的依赖性!

Now, if Gender and Married都是模型中的特征,可能会导致过度拟合和特征冗余。然后,您可能想选择其中之一。

But if Gender or Married是因变量(例如y),那么他们有重要关系就好了。

额外奖励: 有时,其中一项功能会变成暂时地期间的因变量数据插补 https://en.wikipedia.org/wiki/Imputation_(statistics)(当你有缺失值时)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何理解卡方列联表 的相关文章

  • 是否有解决方法可以通过 CoinGecko API 安全检查?

    我在工作中运行我的代码 一切都很顺利 但在不同的网络 家庭 WiFi 上 我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到 在
  • 使用 python requests 模块时出现 HTTP 503 错误

    我正在尝试发出 HTTP 请求 但当前可以从 Firefox 浏览器访问的网站响应 503 错误 代码本身非常简单 在网上搜索一番后我添加了user Agent请求参数 但也没有帮助 有人能解释一下如何消除这个 503 错误吗 顺便说一句
  • 与区域指示符字符类匹配的 python 正则表达式

    我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
  • Python 中的哈希映射

    我想用Python实现HashMap 我想请求用户输入 根据他的输入 我从 HashMap 中检索一些信息 如果用户输入HashMap的某个键 我想检索相应的值 如何在 Python 中实现此功能 HashMap
  • 删除flask中的一对一关系

    我目前正在使用 Flask 开发一个应用程序 并且在删除一对一关系中的项目时遇到了一个大问题 我的模型中有以下结构 class User db Model tablename user user id db Column db String
  • 独立滚动矩阵的行

    我有一个矩阵 准确地说 是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说 我想这样做 print np
  • Python beautifulsoup 仅限 1 级文本

    我看过其他 beautifulsoup 得到相同级别类型的问题 看来我的有点不同 这是网站 我正试图拿到右边那张桌子 请注意表的第一行如何展开为该数据的详细细分 我不想要那个数据 我只想要最顶层的数据 您还可以看到其他行也可以展开 但在本例
  • 从Python中的字典列表中查找特定值

    我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
  • 在Python中检索PostgreSQL数据库的新记录

    在数据库表中 第二列和第三列有数字 将会不断添加新行 每次 每当数据库表中添加新行时 python 都需要不断检查它们 当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息 警告 数量已降至 105 以下 另一方面
  • 如何使用python在一个文件中写入多行

    如果我知道要写多少行 我就知道如何将多行写入一个文件 但是 当我想写多行时 问题就出现了 但是 我不知道它们会是多少 我正在开发一个应用程序 它从网站上抓取并将结果的链接存储在文本文件中 但是 我们不知道它会回复多少行 我的代码现在如下 r
  • 加快网络抓取速度

    我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生 但设法编写了一个可以完成这项工作的蜘蛛 然而 它确实很慢 爬行 23770 个页面大约需要 28 小时 我看过scr
  • javascript 是否有等效的 __repr__ ?

    我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
  • 使用特定颜色和抖动在箱形图上绘制数据点

    我有一个plotly graph objects Box图 我显示了箱形 图中的所有点 我需要根据数据的属性为标记着色 如下所示 我还想抖动这些点 下面未显示 Using Box我可以绘制点并抖动它们 但我不认为我可以给它们着色 fig a
  • 根据列 value_counts 过滤数据框(pandas)

    我是第一次尝试熊猫 我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串 因此会多次出现在数据帧中 我想从中导出另一个数据框 一个只有那些user ids列出至少有 2 个或更多string
  • 为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍,而速度却没有任何提升?

    我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议 因此 我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
  • 如何解决 PDFBox 没有 unicode 映射错误?

    我有一个现有的 PDF 文件 我想使用 python 脚本将其转换为 Excel 文件 目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
  • python import inside函数隐藏现有变量

    我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量 问题 并将其精简为这个片段 使用标准库中的日志记录模块 import logging def foo logging info fo
  • 将 Python 中的日期与日期时间进行比较

    所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
  • 在 JavaScript 函数的 Django 模板中转义字符串参数

    我有一个 JavaScript 函数 它返回一组对象 return Func id name 例如 我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事 有什么解
  • 使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

    作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk

随机推荐

  • Google Data Studio:如何计算特定事件的数量

    我知道以前有人问过类似的问题 但我没有找到答案 例子在这里 https support google com datastudio thread 22779471 hl en 另一个例子 https stackoverflow com qu
  • 在 Ubuntu 16.04 上安装 Oracle Datamodeler

    我正在我的 Ubuntu 16 04 工作站上设置 Oracle 开发环境 安装 Oracle 12c 是一个挑战 但有几个非常有用的教程让我走上了正轨 下列的迪兹韦尔的 https www dizwell com wordpress te
  • 从 Outlook 获取收件箱

    我在 Outlook 2010 中配置了两个 Exchange 帐户 但是我无法找到如何访问第二个帐户的收件箱 Session GetDefaultFolder 总是返回第一个 甚至枚举 Session Accounts 找到正确的帐户并调
  • for 循环缺少初始化

    我见过 for and for s 0 s 怎么就这样空白了 谢谢 The for声明的工作原理如下 for initialization test condition update 这三个中的任何一个或全部都可以省略 留空 所以 for
  • Eclipse源代码下载[已关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 在新的 Eclipse 中 我们具有右键单击 XSD 并从中生成 XML 的功能 有人可以指导我在哪里可以获得 Eclipse 此功能的源代码吗 我猜
  • 如何动态更改按钮模板WPF

    我怎样才能改变一个Button模板动态 我有一个ComboBox通过更改他选择的值 我想更改Button Template 这就是我一直在努力做的事情
  • Reactjs - 在悬停时渲染从数组渲染的列表项的单个图标

    我有这种从对象数组渲染的卡片 父组件 foo bar baz name string path string state isHovering false handleMouseHover gt const isHovering this
  • 调用 new 和 getInstance() 之间的区别

    正在呼叫Class getInstance 相当于new Class 我知道后者调用了构造函数 但是呢getInstance 谢谢 没有这样的方法Class getInstance 你可能把它与Class newInstance http
  • 将一串数字转换为十六进制并返回十进制 pandas python

    我目前有一串值 是在过滤 csv 文件中的数据后检索到的 最终我必须对数据进行一些过滤 但我有与列表 数据帧或数组相同的数字 我只需要获取字符串中的数字并将它们转换为十六进制 然后获取十六进制的前 8 个数字并将其转换为字符串中每个元素的十
  • 如何在多个存储过程上使用事务?

    您能否在一个存储过程中启动一项事务 然后在嵌套过程中回滚或提交它 提交和回滚有不同的效果 COMMIT 递减 TRANCOUNT ROLLBACK 将其推回到零 发生这种情况是因为 SQL Server 并不真正支持嵌套事务 如果您在嵌套存
  • Angular 6 延迟加载路线

    我想在我的项目中为管理员添加延迟加载路由 我使用 ASP Net Core 后端和 Angular 6 前端 因此我的编译代码输出目录是 wwwRoot Angular dist 当我编译项目时 我看到那里存在文件 admin admin
  • 为什么文件范围静态变量必须为零初始化?

    C 默认初始化不会将具有自动存储的变量清零 为什么要对静态存储变量进行特殊处理 C 和 C 定义的东西必须兼容吗 如果是这种情况 为什么 C 决定进行零初始化 如果文件范围静态变量提供了初始化程序 它们将首先被零初始化 然后再次被常量 动态
  • 当许多键具有相同的哈希码时,Java 8 的 HashMap 如何退化为平衡树?

    当许多键具有相同的哈希码时 Java 8 的 HashMap 如何退化为平衡树 我读到密钥应该实现Comparable定义排序 HashMap如何结合散列和自然排序来实现树 没有实现的类怎么办Comparable 或者当多个 不可相互比较时
  • 如何快速绘制数千个圆圈?

    我正在尝试绘制几个 数千个 圆形对象 我没有太多使用 python 的经验 我有兴趣指定位置 半径和颜色 有没有更有效的方法来达到相同的结果 import matplotlib pyplot as plt xvals 0 1 2 3 yva
  • iOS 推送其他应用的通知

    有没有办法接收所有应用程序的所有推送通知 那么所有通知都显示在通知中心吗 如果是 是否也可以在收到来自任何应用程序的任何推送通知时执行操作 Thanks 编辑 该应用程序是否会被苹果接受并不重要 推送通知将发送到注册接收通知的应用程序 您无
  • 使用 capistrano+nginx 在单个数字海洋 Droplet 中部署多个 Rails 应用程序

    我有一个在 IP xxx xxx xxx xx 的数字海洋服务器上运行的 Rails 应用程序 使用 Capistrano 部署现在很容易运行 现在我正在考虑使用 capistrano 将另一个应用程序部署到同一服务器 经过多次尝试研究我没
  • 应用程序强制退出并重新启动后如何恢复 NSURLSession 下载过程?

    我已经实施了NSURLSession用于从我们的服务器下载相当大的文件 现在 只要我在前台或后台工作并返回应用程序 交易就会正常工作并完成 但如果我强制退出使用多任务屏幕的应用程序 然后再次重新打开应用程序 下载过程尚未完成 尽管据我从文档
  • Twitter Bootstrap 响应式导航栏在小屏幕上损坏

    我一直在阅读文档并将我的代码与 Bootstrap 的示例进行比较 但我无法弄清楚为什么当我缩小浏览器窗口或在手机上查看它时 我网站上的导航栏会下降约 100px http warm ocean 8133 herokuapp com htt
  • 将负颜色数转换为 HEX 或 RGB

    我从未见过像这样的颜色代码 1 16777216 256等等 所以我当前的问题是这样的 我们有一个第三方软件 您可以在其中对值进行颜色编码 如下图所示 现在我正在创建一个显示这些值的 PHP 报告 但我还想使用与软件中定义的颜色相同的颜色来
  • 如何理解卡方列联表

    我有几个分类特征 Gender Married Dependents Education Self Employed Property Area from scipy stats import chi2 contingency chi2 p