统计学——卡方检验和卡方分布

2023-10-26

什么是卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

例子1：四格卡方检验

以下为一个典型的四格卡方检验，我们想知道喝牛奶对感冒发病率有没有影响：

	感冒人数	未感冒人数	合计	感冒率
喝牛奶组	43	96	139	30.94%
不喝牛奶组	28	84	112	25.00%
合计	71	180	251	28.29%

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%，两者的差别可能是抽样误差导致，也有可能是牛奶对感冒率真的有影响。

为了确定真实原因，我们先假设喝牛奶对感冒发病率是没有影响的，即喝牛奶喝感冒时独立无关的，所以我们可以得出感冒的发病率实际是（43+28）/（43+28+96+84）= 28.29%

所以，理论的四格表应该如下表所示：

	感冒人数	未感冒人数	合计
喝牛奶组	*=1390.2829**	*=139(1-0.2829)**	139
不喝牛奶组	*=1120.2829**	*=112(1-0.2829)**	112

即下表：

	感冒人数	未感冒人数	合计
喝牛奶组	39.3231	99.6769	139
不喝牛奶组	31.6848	80.3152	112
合计	71	180	251

如果喝牛奶和感冒真的是独立无关的，那么四格表里的理论值和实际值差别应该会很小。

卡方检验

卡方检验的计算公式为：

其中，A为实际值，T为理论值。

x2用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：
1. 实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）
2. 差异程度与理论值的相对大小

例1卡方检验

根据卡方检验公式我们可以得出例1的卡方值为：

卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

卡方分布的临界值：

上一步我们得到了卡方的值，但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的？也就是说，怎么知道无关性假设是否可靠？

答案是，通过查询卡方分布的临界值表。

这里需要用到一个自由度的概念，自由度等于V = (行数 - 1) * (列数 - 1)，对四格表，自由度V = 1。

对V = 1，喝牛奶和感冒95%概率不相关的卡方分布的临界概率是：3.84，显然1.077<3.84，没有达到卡方分布的临界值，所以喝牛奶和感冒是独立不相关的。

上面通过一个小例子让大家对卡方检验有一个简单的认识，下面是卡方检验的标准做法：

例子2. 四格卡方检验的标准做法

我们想知道不吃晚饭对体重下降有没有影响：

	体重下降	体重未下降	合计	体重下降率
吃晚饭组	123	467	590	20.85%
不吃晚饭组	45	106	151	29.80%
合计	168	573	741	22.67%

1. 建立假设检验：

H0：r1＝r2，不吃晚饭对体重下降没有影响，即吃不吃晚饭的体重下降率相等；
H1：r1≠r2，不吃晚饭对体重下降有显著影响，即吃不吃晚饭的体重下降率不相等。α=0.05

2. 计算理论值

	体重下降	体重未下降	合计
吃晚饭组	133.765	456.234	590
不吃晚饭组	34.2348	116.765	151
合计	168	573	741

3. 计算卡方值

根据公式

计算出卡方值为5.498

4. 查卡方表求P值

在查表之前应知本题自由度。按卡方检验的自由度v=（行数-1）（列数-1），则该题的自由度v=（2-1）（2-1）=1，查卡方界值表，找到3.84，而本题卡方=5.498即卡方＞3.84，P＜0.05，差异有显著统计学意义，按α=0.05水准，拒绝H0，可以认为两组的体重下降率有明显差别。

通过实例计算，对卡方的基本公式有如下理解：若各理论数与相应实际数相差越小，卡方值越小；如两者相同，则卡方值必为零。

附录

什么是卡方分布

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布（chi-square distribution）。

R语言实现：

x1 = rnorm(1000000)
x2 = rnorm(1000000)
x3 = rnorm(1000000)
x4 = rnorm(1000000)
x5 = rnorm(1000000)
x6 = rnorm(1000000)

Q1 = x1^2
Q2 = x1^2 + x2^2
Q3 = x1^2 + x2^2 + x3^2
Q4 = x1^2 + x2^2 + x3^2 + x4^2
Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2

par(mfrow=c(1,1)) 
plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='')
lines(density(Q2),col='black',lwd=2)
lines(density(Q3),col='red',lwd=2)
lines(density(Q4),col='green',lwd=2)
lines(density(Q5),col='gray',lwd=2)
lines(density(Q6),col='orange',lwd=2)
legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))

最后画出来的图是：

由于随机数取得比较少，可能分布图与实际有些许的差别，不过这个可以不用太在意，一下是标准的分布图：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

统计学

卡方检验

统计学——卡方检验和卡方分布的相关文章

基于Qiime2处理Silva数据库

生物信息学习提示仅供学习交流使用基于Qiime2处理Silva数据库前言一安装Qiime2 二通过Qiime2下载Silva数据库 1 RESCRIPt安装 2 下载处理Silva数据库 3 构建分类器 3 1 全长分类器构建
参数显著性检验的p值小于显著性水平不等于其具有经济学意义

在做简单线性回归或者多元线性回归时如何评估参数的统计意义和经济意义是我们研究问题的两个重要方面理论意义和经济意义是如何显示在数字上的呢以下是笔者在做相关或者线性回归课题时学习整理出来的在此分享记录参数的t统计量足够大或者p值足够
什么是结构因果模型

结构因果模型结构因果模型简介定义历史因果关系之梯关联干预反事实因果因果和相关类型必要因充分因促成因模型因果图模型元素连接方式链叉对撞节点类型中介变量混杂因子工具变量孟德尔随机化关联独立性
二元对数正态分布 (bivariate lognormal distribution) 的几个性质

二元对数正态分布 bivariate lognormal distribution 的几个性质摘要对数正态分布二元正态分布 bivariate normal distribution 对数正态分布的期望与方差二元对数正态分布的协方差
统计学习：ANOVA（方差分析）（1）

统计学习最近在处理数据的过程中越发发觉自己理论知识的薄弱因此开始了这一系列的帖子记录自己的理论补充过程同时方便后来人理解 ANOVA 方差分析方差分析 Analysis of Variance 简称ANOVA 又称变异数分析
蓄水池抽样算法（Reservoir Sampling）

蓄水池抽样算法 Reservoir Sampling 问题描述问题分析代码实现数学证明问题描述给定一个数据流数据流长度N很大且长度不可预知问如何在仅遍历一次数据的情况下如何等概率抽取m个样本问题分析首先明确概念等概
统计学基础面点

文章目录 1 T检验 F检验卡方检验 2 方差分析 3 多重共线性 4 参数估计 5 假设检验 6 大数定律和中心极限定理总结一下统计学的基础概念和考点给即将秋招的统计学er以及baozi 1 T检验基本概念 t检验亦称studen
统计学的基本概念

转浅谈协方差矩阵一统计学的基本概念统计学里最基本的概念就是样本的均值方差标准差首先我们给定一个含有n个样本的集合下面给出这些概念的公式描述均值标准差方差均值描述的是样本集合的中间点它告诉我们的信息是有限的而标准
权重确定方法之主成分分析法

什么是权重呢所谓权重是指某指标在整体评价中的相对重要程度权重越大则该指标的重要性越高对整体的影响就越高权重要满足两个条件每个指标的权重在0 1之间所有指标的权重和为1 权重的确定方法有很多这里我们学习用主成分分析确定权重一
数据分析之非参数检验与二元逻辑回归结果不一致的原因

在对两组数据进行非参数检验时各项属性间无统计学差异但以分类变量作为因变量使用二元逻辑回归进行分析时其中存在属性p值小于0 05 即该变量对因变量的影响具有显著性导致该情况的原因可能是由于两个检验方法所用的假设和检验策略不同所致非
伯努利分布、二项分布、泊松分布、指数分布、Gamma分布的联系

伯努利分布 0 1分布伯努利分布是二项分布在N 1时的特例随机变量为取值为0或者1 二项分布 N次重复且独立的伯努利实验随机变量为在N次实验中出现某种情况概率为p 的次数K 泊松分布二项分布的极限形式 N趋于无穷大 P趋于0 描述
p-value，q-value,FDR

假阴性错误 false negative errors 高水平的基因可能偶尔没有检测到假阳性错误 false positive errors 低水平表达的基因由于扩增偏差可能显得过于丰富导致假阳性错误错误发现率 False Disc
分类与回归树（CART）- 机器学习ML

参考 1 统计学习方法李航 2 https www cnblogs com en heng p 5035945 html 3 http blog csdn net baimafujinji article details 53269040
假设检验（一）：假设检验总体概念

写在前面的话最近在学习统计学这里仅仅是一些学习笔记方便我自己回顾以及供大家参考对于统计学我只是初学者有什么错误之处欢迎大家指出共同学习共同进步一总体概念假设检验是一种统计推断方法其主要用来判断样本与样本样本与总体之间
R语言实用案例分析-1

在日常生活和实际应用当中我们经常会用到统计方面的知识比如求最大值求平均值等等 R语言是一门统计学语言他可以方便的完成统计相关的计算下面我们就来看一个相关案例 1 背景最近西安交大大数据专业二班开设了Java和大数据技术课程班
FDR计算

FDR计算 FDR的计算很简单我折腾了一上午主要是因为遇到了以下几个问题问题 FDR是什么有什么用怎么计算我把几个模型的P值都合并成一个表了所以每次运算FDR时我需挑选特定的对象我有多个模型所以我想着要如何构建循环 FDR
《5分钟说完一个概念》：什么是Bootstrap采用

想知道中国人的平均身高群体均值群体方差为每次抽样 1000 人抽样了次每次抽样的 1000人的平均身高是一次随机抽样这
统计学:方差分析和相关分析的区别和联系

区别方差分析目的是检验因素是否对总体起作用方法是不同的分组施加不同的因素水平然后看组间差距是否明显大于组内差距若明显大于则认为因素对总体起作用具体过程中方差分析只读取因变量数据而不读取自变量数值相关分析是检验变量之间是否有依
生成一定相关性的二元正态分布

生成一定相关性的二元正态分布摘要二元正态分布二元正态分布概率密度函数二元正态分布随机数的生成程序实现多元正态分布的情况生成服从 N
统计学三大分布(卡方、t、F)即相应概率密度图的R语言实现

三大统计分布 1 2 chi 2 2分布设随机变量 X 1

随机推荐

pytorch自定义loss损失函数

自定义loss的方法有很多但是在博主查资料的时候发现有挺多写法会有问题靠谱一点的方法是把loss作为一个pytorch的模块比如 class CustomLoss nn Module 注意继承 nn Module def init s
selenium-java的使用教程

selenium的使用教程概述 selenium 是一个用于Web应用程序测试的工具 Selenium测试直接运行在浏览器中就像真正的用户在操作一样支持的浏览器包括IE 7 8 9 10 11 Mozilla Firefox Safa
IntelliJ IDEA扩展_解决运行Command line is too long

老版本解决方法在项目文件夹 idea workspace xml中找到
关于Anaconda中Jyputer Notebook启动后不自动跳转网页Juypter问题的解决

首先Juypter启动页面我之前打开后不启动就手动复制粘贴http 后面的网址在浏览器打开每次这样很麻烦上网查了下有所感悟灵感来自这个博主 http t csdn cn NMPQs 彻底解决该问题 1 win r 启动cmd 2
（二十三）用几何布朗运动模拟股价走势

几何布朗运动的定义与表达式用几何布朗运动模拟未来股价下面我们以华泰证券 601688 股票为例根据其2016年 2019年的日收盘价数据得到收益率和波动率模拟未来三年 2020年 2022年的价格走势模拟路径为100条 S0设定
集成电路（芯片 ic chip）详解

集成电路英文的全称是Integrated Circuit 中文简称为IC 集成电路也有称为蕊片或chip的集成电路就是将晶体管电阻电容二极管等电子组件整合装至一芯片 chip 上所构成的元件现在的大规模集成电路可以集成几
使用Java复制某一路径下的所有sql文件到另一目录下

package com zyx test import java io File import java io FileInputStream import java io FileOutputStream import java io I
springboot下将项目打包部署完整版亲测

我是将项目打包成jar的完整的springboot项目打包部署过程 1 设置我们的端口号 application properties中 server port 8080 2 配置我们的pom文件
基于卷积的图像分类识别（一）：AlexNet

本专栏介绍基于深度学习进行图像识别的经典和前沿模型将持续更新包括不仅限于 AlexNet ZFNet VGG GoogLeNet ResNet DenseNet SENet MobileNet ShuffleNet Eifficient
对一个多维数组随机添加高斯噪音

这是对上一篇对一个数组随机赋零的提升版 mu 0 sigma 0 12 for i in range 17 有17列数据 a date iloc i i 1 取出某一列 a np array a index np arange len a
CUnit例子

2019独角兽企业重金招聘Python工程师标准 gt gt gt 关于CUnit的安装请自行百度我的系统 fedora22 64bit 我的CUnit的头文件在 usr include CUnit 库文件在 usr lib64 文件 l
Scene窗口—Scene视图导航

Scene 视图导航 Scene 视图具有一组可用于快速有效移动的导航控件场景视图辅助图标场景视图辅助图标 Scene Gizmo 位于 Scene 视图的右上角此控件用于显示 Scene 视图摄像机的当前方向并允许快速修改视角和投
部署CNI网络插件 The connection to the server raw.githubusercontent.com was refused - did you specify the r

访问不了解决方案 1 找到域名对应的ip地址域名ip查询链接链接 http ip tool chinaz com 2 etc hosts中添加主机ip映射信息 3 重新获取 kubectl apply f https raw githu
Android 13.0 Launcher3定制之双层改单层(去掉抽屉式三)

1 概述在13 0的系统产品开发中对于在Launcher3中的抽屉模式中系统默认的就是抽屉单层模式但是在很多产品中需要默认为单层模式就是要求去掉双层抽屉模式接下来看下如何继续实现去掉抽屉双层模式来变成单层模式第三节 2 La
Centos彻底删除文件夹、文件命令

centos彻底删除文件夹文件命令 centos彻底删除文件夹文件命令 centos 新建删除移动复制等命令 1 新建文件夹 mkdir 文件名新建一个名为test的文件夹在home下 view source1 mkdir ho
谷歌身份验证器二维码

otpauth totp ACCOUNT secret SECRET issuer NAME ACCOUNT账户名称 SECRET密钥 NAME发布者公司网站的名称 e g otpauth totp yimcarson secret V
接口测试时遇到接口加密了该如何处理？

对明文编码生成信息摘要以防止被篡改比如MD5使用的是Hash算法无论多长的输入 MD5都会输出长度为128bits的一个串摘要算法不要秘钥客户端和服务端采用相同的摘要算法即可针对同一段明文获取一致的密文对称加密对称加密算法是共
冒泡排序算法的Java实现及优化

冒泡排序是一种简单但效率较低的排序算法它通过多次交换相邻元素的位置来实现排序本篇博客将介绍如何使用Java编程语言实现冒泡排序算法并对其进行优化首先让我们来了解一下冒泡排序的基本原理冒泡排序的思想是从数组的起始位置开始比较相邻
Java 8 Stream 流用法及语法

Java 8 Stream 流用法 1 简介 Stream流最全的用法 Stream 能用来干什么用来处理集合通过使用Stream API 对集合数据进行操作就类似于使用 SQL 执行的数据库查询 Stream API 提供了一种
统计学——卡方检验和卡方分布

什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法它属于非参数检验的范畴主要是比较两个及两个以上样本率构成比以及两个分类变量的关联性分析其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题它在分类资料统计

统计学——卡方检验和卡方分布

统计学——卡方检验和卡方分布 的相关文章

随机推荐

热门标签

统计学——卡方检验和卡方分布的相关文章