如何理解卡方列联表

2024-02-20

我有几个分类特征：

['Gender',
 'Married',
 'Dependents',
 'Education',
 'Self_Employed',
 'Property_Area']

from scipy.stats import chi2_contingency
chi2, p, dof, expected = chi2_contingency((pd.crosstab(df.Gender, df.Married).values))
print (f'Chi-square Statistic : {chi2} ,p-value: {p}')

output:

Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19

我如何从这些统计数据中知道这些特征是否彼此独立？

我正在尝试构建一个分类模型，所以我只想知道这些分类列对于预测我的目标变量是否有用。

列联表在统计学中用来总结几个之间的关系绝对的变量。

在您的示例中，两个变量之间的列联表Genderand Married is a 频率这些变量的表同时呈现。

A 卡方检验在列联表上进行可以测试是否关系存在变量之间。这些效果被定义为行和列之间的关系。

scipy.stats.chi2_contingency https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.chi2_contingency.html计算 -默认情况下- 皮尔逊卡方统计量 https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test.

此外，我们感兴趣的是Sig(2-Tailed) https://www.statisticshowto.datasciencecentral.com/sig2-tailed-interpreting-results/这是您示例中的 p 值。

The p-value是反对a的证据零假设. The smallerp 值，strong你应该的证据reject原假设。

你的情况的原假设是依赖列联表中观察到的频率。

选择显着水平 -alpha as 5%; your p-value is 4.502328957824834e-19远小于.05表明列联表的行和列是独立的。一般来说，这意味着有必要解释列联表中的单元格。

在这种特殊情况下，这意味着Male or Female（即性别）是not不同级别的分布相似婚姻状况（即已婚、未婚）。

所以，结婚可能是一种性别比另一种性别更重要的地位！

Update

根据你的评论，我发现你对这个测试有一些疑问。

这个测试基本上告诉你变量之间的关系是否是重要的（即可以代表人口）或来自chance!

因此，如果显着性水平较高（高 p 值），则意味着变量之间存在显着的依赖性！

Now, if Gender and Married都是模型中的特征，可能会导致过度拟合和特征冗余。然后，您可能想选择其中之一。

But if Gender or Married是因变量（例如y），那么他们有重要关系就好了。

额外奖励：有时，其中一项功能会变成暂时地期间的因变量数据插补 https://en.wikipedia.org/wiki/Imputation_(statistics)（当你有缺失值时）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scipy

statistics

chisquared

如何理解卡方列联表的相关文章

是否有解决方法可以通过 CoinGecko API 安全检查？

我在工作中运行我的代码一切都很顺利但在不同的网络家庭 WiFi 上我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到在
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
Python 中的哈希映射

我想用Python实现HashMap 我想请求用户输入根据他的输入我从 HashMap 中检索一些信息如果用户输入HashMap的某个键我想检索相应的值如何在 Python 中实现此功能 HashMap
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk

随机推荐

Google Data Studio：如何计算特定事件的数量

我知道以前有人问过类似的问题但我没有找到答案例子在这里 https support google com datastudio thread 22779471 hl en 另一个例子 https stackoverflow com qu
在 Ubuntu 16.04 上安装 Oracle Datamodeler

我正在我的 Ubuntu 16 04 工作站上设置 Oracle 开发环境安装 Oracle 12c 是一个挑战但有几个非常有用的教程让我走上了正轨下列的迪兹韦尔的 https www dizwell com wordpress te
从 Outlook 获取收件箱

我在 Outlook 2010 中配置了两个 Exchange 帐户但是我无法找到如何访问第二个帐户的收件箱 Session GetDefaultFolder 总是返回第一个甚至枚举 Session Accounts 找到正确的帐户并调
for 循环缺少初始化

我见过 for and for s 0 s 怎么就这样空白了谢谢 The for声明的工作原理如下 for initialization test condition update 这三个中的任何一个或全部都可以省略留空所以 for
Eclipse源代码下载[已关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案在新的 Eclipse 中我们具有右键单击 XSD 并从中生成 XML 的功能有人可以指导我在哪里可以获得 Eclipse 此功能的源代码吗我猜
如何动态更改按钮模板WPF

我怎样才能改变一个Button模板动态我有一个ComboBox通过更改他选择的值我想更改Button Template 这就是我一直在努力做的事情
Reactjs - 在悬停时渲染从数组渲染的列表项的单个图标

我有这种从对象数组渲染的卡片父组件 foo bar baz name string path string state isHovering false handleMouseHover gt const isHovering this
调用 new 和 getInstance() 之间的区别

正在呼叫Class getInstance 相当于new Class 我知道后者调用了构造函数但是呢getInstance 谢谢没有这样的方法Class getInstance 你可能把它与Class newInstance http
将一串数字转换为十六进制并返回十进制 pandas python

我目前有一串值是在过滤 csv 文件中的数据后检索到的最终我必须对数据进行一些过滤但我有与列表数据帧或数组相同的数字我只需要获取字符串中的数字并将它们转换为十六进制然后获取十六进制的前 8 个数字并将其转换为字符串中每个元素的十
如何在多个存储过程上使用事务？

您能否在一个存储过程中启动一项事务然后在嵌套过程中回滚或提交它提交和回滚有不同的效果 COMMIT 递减 TRANCOUNT ROLLBACK 将其推回到零发生这种情况是因为 SQL Server 并不真正支持嵌套事务如果您在嵌套存
Angular 6 延迟加载路线

我想在我的项目中为管理员添加延迟加载路由我使用 ASP Net Core 后端和 Angular 6 前端因此我的编译代码输出目录是 wwwRoot Angular dist 当我编译项目时我看到那里存在文件 admin admin
为什么文件范围静态变量必须为零初始化？

C 默认初始化不会将具有自动存储的变量清零为什么要对静态存储变量进行特殊处理 C 和 C 定义的东西必须兼容吗如果是这种情况为什么 C 决定进行零初始化如果文件范围静态变量提供了初始化程序它们将首先被零初始化然后再次被常量动态
当许多键具有相同的哈希码时，Java 8 的 HashMap 如何退化为平衡树？

当许多键具有相同的哈希码时 Java 8 的 HashMap 如何退化为平衡树我读到密钥应该实现Comparable定义排序 HashMap如何结合散列和自然排序来实现树没有实现的类怎么办Comparable 或者当多个不可相互比较时
如何快速绘制数千个圆圈？

我正在尝试绘制几个数千个圆形对象我没有太多使用 python 的经验我有兴趣指定位置半径和颜色有没有更有效的方法来达到相同的结果 import matplotlib pyplot as plt xvals 0 1 2 3 yva
iOS 推送其他应用的通知

有没有办法接收所有应用程序的所有推送通知那么所有通知都显示在通知中心吗如果是是否也可以在收到来自任何应用程序的任何推送通知时执行操作 Thanks 编辑该应用程序是否会被苹果接受并不重要推送通知将发送到注册接收通知的应用程序您无
使用 capistrano+nginx 在单个数字海洋 Droplet 中部署多个 Rails 应用程序

我有一个在 IP xxx xxx xxx xx 的数字海洋服务器上运行的 Rails 应用程序使用 Capistrano 部署现在很容易运行现在我正在考虑使用 capistrano 将另一个应用程序部署到同一服务器经过多次尝试研究我没
应用程序强制退出并重新启动后如何恢复 NSURLSession 下载过程？

我已经实施了NSURLSession用于从我们的服务器下载相当大的文件现在只要我在前台或后台工作并返回应用程序交易就会正常工作并完成但如果我强制退出使用多任务屏幕的应用程序然后再次重新打开应用程序下载过程尚未完成尽管据我从文档
Twitter Bootstrap 响应式导航栏在小屏幕上损坏

我一直在阅读文档并将我的代码与 Bootstrap 的示例进行比较但我无法弄清楚为什么当我缩小浏览器窗口或在手机上查看它时我网站上的导航栏会下降约 100px http warm ocean 8133 herokuapp com htt
将负颜色数转换为 HEX 或 RGB

我从未见过像这样的颜色代码 1 16777216 256等等所以我当前的问题是这样的我们有一个第三方软件您可以在其中对值进行颜色编码如下图所示现在我正在创建一个显示这些值的 PHP 报告但我还想使用与软件中定义的颜色相同的颜色来
如何理解卡方列联表

我有几个分类特征 Gender Married Dependents Education Self Employed Property Area from scipy stats import chi2 contingency chi2 p

热门标签