统计学——卡方检验和卡方分布

2023-10-26

什么是卡方检验

 

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。


它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

 

例子1:四格卡方检验

 

以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:

 

 

  感冒人数 未感冒人数 合计 感冒率
喝牛奶组 43 96 139 30.94%
不喝牛奶组 28 84 112 25.00%
合计 71 180 251 28.29%

 

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。

 

为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

所以,理论的四格表应该如下表所示:

 

 

  感冒人数 未感冒人数 合计
喝牛奶组 =139*0.2829 =139*(1-0.2829) 139
不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112


即下表:

 

 

  感冒人数 未感冒人数 合计
喝牛奶组 39.3231 99.6769 139
不喝牛奶组 31.6848 80.3152 112
合计 71 180 251

 

如果喝牛奶和感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。

 

 

卡方检验

 

卡方检验的计算公式为:

其中,A为实际值,T为理论值。

x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
2. 差异程度与理论值的相对大小

 

例1卡方检验

 

根据卡方检验公式我们可以得出例1的卡方值为:

卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

 

卡方分布的临界值:

 

上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

答案是,通过查询卡方分布的临界值表。


这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。


对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84,显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒是独立不相关的。


 

上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:

 

例子2. 四格卡方检验的标准做法

我们想知道不吃晚饭对体重下降有没有影响:

 

 

  体重下降 体重未下降 合计 体重下降率
吃晚饭组 123 467 590 20.85%
不吃晚饭组 45 106 151 29.80%
合计 168 573 741 22.67%

 

1. 建立假设检验:

 

H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

2. 计算理论值

 

 

  体重下降 体重未下降 合计
吃晚饭组 133.765 456.234 590
不吃晚饭组 34.2348 116.765 151
合计 168 573 741

 

3. 计算卡方值

 

根据公式

计算出卡方值为5.498

4. 查卡方表求P值

在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。

 

 

通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。

 

附录

 

什么是卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

 

R语言实现:

 

x1 = rnorm(1000000)
x2 = rnorm(1000000)
x3 = rnorm(1000000)
x4 = rnorm(1000000)
x5 = rnorm(1000000)
x6 = rnorm(1000000)

Q1 = x1^2
Q2 = x1^2 + x2^2
Q3 = x1^2 + x2^2 + x3^2
Q4 = x1^2 + x2^2 + x3^2 + x4^2
Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2

par(mfrow=c(1,1)) 
plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='')
lines(density(Q2),col='black',lwd=2)
lines(density(Q3),col='red',lwd=2)
lines(density(Q4),col='green',lwd=2)
lines(density(Q5),col='gray',lwd=2)
lines(density(Q6),col='orange',lwd=2)
legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))


最后画出来的图是:

 

 

由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

统计学——卡方检验和卡方分布 的相关文章

  • 基于Qiime2处理Silva数据库

    生物信息学习 提示 仅供学习交流使用 基于Qiime2处理Silva数据库 前言 一 安装Qiime2 二 通过Qiime2下载Silva数据库 1 RESCRIPt安装 2 下载处理Silva数据库 3 构建分类器 3 1 全长分类器构建
  • 参数显著性检验的p值小于显著性水平不等于其具有经济学意义

    在做简单线性回归或者多元线性回归时 如何评估参数的统计意义和经济意义是我们研究问题的两个重要方面 理论意义和经济意义是如何显示在数字上的呢 以下是笔者在做相关或者线性回归课题时学习整理出来的 在此分享记录 参数的t统计量足够大 或者p值足够
  • 什么是结构因果模型

    结构因果模型 结构因果模型简介 定义 历史 因果关系之梯 关联 干预 反事实 因果 因果和相关 类型 必要因 充分因 促成因 模型 因果图 模型元素 连接方式 链 叉 对撞 节点类型 中介变量 混杂因子 工具变量 孟德尔随机化 关联 独立性
  • 二元对数正态分布 (bivariate lognormal distribution) 的几个性质

    二元对数正态分布 bivariate lognormal distribution 的几个性质 摘要 对数正态分布 二元正态分布 bivariate normal distribution 对数正态分布的期望与方差 二元对数正态分布的协方差
  • 统计学习:ANOVA(方差分析)(1)

    统计学习 最近在处理数据的过程中 越发发觉自己理论知识的薄弱 因此 开始了这一系列的帖子 记录自己的理论补充过程 同时方便后来人理解 ANOVA 方差分析 方差分析 Analysis of Variance 简称ANOVA 又称 变异数分析
  • 蓄水池抽样算法(Reservoir Sampling)

    蓄水池抽样算法 Reservoir Sampling 问题描述 问题分析 代码实现 数学证明 问题描述 给定一个数据流 数据流长度N很大 且长度不可预知 问如何在仅遍历一次数据的情况下 如何等概率 抽取m个样本 问题分析 首先明确概念 等概
  • 统计学基础面点

    文章目录 1 T检验 F检验 卡方检验 2 方差分析 3 多重共线性 4 参数估计 5 假设检验 6 大数定律和中心极限定理 总结一下统计学的基础概念和考点给即将秋招的统计学er以及baozi 1 T检验 基本概念 t检验 亦称studen
  • 统计学的基本概念

    转 浅谈协方差矩阵 一 统计学的基本概念 统计学里最基本的概念就是样本的均值 方差 标准差 首先 我们给定一个含有n个样本的集合 下面给出这些概念的公式描述 均值 标准差 方差 均值描述的是样本集合的中间点 它告诉我们的信息是有限的 而标准
  • 权重确定方法之主成分分析法

    什么是权重呢 所谓权重 是指某指标在整体评价中的相对重要程度 权重越大则该指标的重要性越高 对整体的影响就越高 权重要满足两个条件 每个指标的权重在0 1之间 所有指标的权重和为1 权重的确定方法有很多 这里我们学习用主成分分析确定权重 一
  • 数据分析之非参数检验与二元逻辑回归结果不一致的原因

    在对两组数据进行非参数检验时 各项属性间无统计学差异 但以分类变量作为因变量使用二元逻辑回归进行分析时 其中存在属性p值小于0 05 即该变量对因变量的影响具有显著性 导致该情况的原因 可能是由于两个检验方法所用的假设和检验策略不同所致 非
  • 伯努利分布、二项分布、泊松分布、指数分布、Gamma分布的联系

    伯努利分布 0 1分布 伯努利分布是二项分布在N 1时的特例 随机变量为取值为0或者1 二项分布 N次重复且独立的伯努利实验 随机变量为在N次实验中出现某种情况 概率为p 的次数K 泊松分布 二项分布的极限形式 N趋于无穷大 P趋于0 描述
  • p-value,q-value,FDR

    假阴性错误 false negative errors 高水平的基因可能偶尔没有检测到 假阳性错误 false positive errors 低水平表达的基因由于扩增偏差 可能显得过于丰富 导致假阳性错误 错误发现率 False Disc
  • 分类与回归树(CART)- 机器学习ML

    参考 1 统计学习方法 李航 2 https www cnblogs com en heng p 5035945 html 3 http blog csdn net baimafujinji article details 53269040
  • 假设检验(一):假设检验总体概念

    写在前面的话 最近在学习统计学 这里仅仅是一些学习笔记 方便我自己回顾以及供大家参考 对于统计学我只是初学者 有什么错误之处欢迎大家指出 共同学习 共同进步 一 总体概念 假设检验是一种统计推断方法 其主要用来判断样本与样本 样本与总体之间
  • R语言实用案例分析-1

    在日常生活和实际应用当中 我们经常会用到统计方面的知识 比如求最大值 求平均值等等 R语言是一门统计学语言 他可以方便的完成统计相关的计算 下面我们就来看一个相关案例 1 背景 最近西安交大大数据专业二班 开设了Java和大数据技术课程 班
  • FDR计算

    FDR计算 FDR的计算很简单 我折腾了一上午主要是因为遇到了以下几个问题 问题 FDR是什么 有什么用 怎么计算 我把几个模型的P值都合并成一个表了 所以每次运算FDR时 我需挑选特定的对象 我有多个模型 所以我想着要如何构建循环 FDR
  • 《5分钟说完一个概念》:什么是Bootstrap采用

    想知道中国人的平均身高 群体均值 群体方差为 每次抽样 1000 人 抽样了 次 每次抽样的 1000人 的平均身高是一次随机抽样 这
  • 统计学:方差分析和相关分析的区别和联系

    区别 方差分析目的是检验因素是否对总体起作用 方法是不同的分组施加不同的因素水平 然后看组间差距是否明显大于组内差距 若明显大于则认为因素对总体起作用 具体过程中 方差分析只读取因变量数据 而不读取自变量数值 相关分析是检验变量之间是否有依
  • 生成一定相关性的二元正态分布

    生成一定相关性的二元正态分布 摘要 二元正态分布 二元正态分布概率密度函数 二元正态分布随机数的生成 程序实现 多元正态分布的情况 生成服从 N
  • 统计学三大分布(卡方、t、F)即相应概率密度图的R语言实现

    三大统计分布 1 2 chi 2 2分布 设随机变量 X 1

随机推荐

  • pytorch自定义loss损失函数

    自定义loss的方法有很多 但是在博主查资料的时候发现有挺多写法会有问题 靠谱一点的方法是把loss作为一个pytorch的模块 比如 class CustomLoss nn Module 注意继承 nn Module def init s
  • selenium-java的使用教程

    selenium的使用教程 概述 selenium 是一个用于Web应用程序测试的工具 Selenium测试直接运行在浏览器中 就像真正的用户在操作一样 支持的浏览器包括IE 7 8 9 10 11 Mozilla Firefox Safa
  • IntelliJ IDEA扩展_解决运行Command line is too long

    老版本解决方法 在项目文件夹 idea workspace xml中找到
  • 关于Anaconda中Jyputer Notebook启动后不自动跳转网页Juypter问题的解决

    首先Juypter启动页面 我之前打开后不启动 就手动复制粘贴http 后面的网址在浏览器打开 每次这样很麻烦 上网查了下 有所感悟 灵感来自这个博主 http t csdn cn NMPQs 彻底解决该问题 1 win r 启动cmd 2
  • (二十三)用几何布朗运动模拟股价走势

    几何布朗运动的定义与表达式 用几何布朗运动模拟未来股价 下面我们以华泰证券 601688 股票为例 根据其2016年 2019年的日收盘价数据得到收益率和波动率 模拟未来三年 2020年 2022年 的价格走势 模拟路径为100条 S0设定
  • 集成电路(芯片 ic chip)详解

    集成电路 英文的全称是Integrated Circuit 中文简称为IC 集成电路 也有称为蕊片或chip的 集成电路 就是将晶体管 电阻 电容 二极管等电子组件整合装至一芯片 chip 上所构成的元件 现在的大规模 集成电路 可以集成几
  • 使用Java复制某一路径下的所有sql文件到另一目录下

    package com zyx test import java io File import java io FileInputStream import java io FileOutputStream import java io I
  • springboot下将项目打包部署 完整版 亲测

    我是将项目 打包成jar的 完整的springboot项目打包部署过程 1 设置我们的端口号 application properties中 server port 8080 2 配置我们的pom文件
  • 基于卷积的图像分类识别(一):AlexNet

    本专栏介绍基于深度学习进行图像识别的经典和前沿模型 将持续更新 包括不仅限于 AlexNet ZFNet VGG GoogLeNet ResNet DenseNet SENet MobileNet ShuffleNet Eifficient
  • 对一个多维数组随机添加高斯噪音

    这是对上一篇对一个数组随机赋零的提升版 mu 0 sigma 0 12 for i in range 17 有17列数据 a date iloc i i 1 取出某一列 a np array a index np arange len a
  • CUnit例子

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 关于CUnit的安装请自行百度 我的系统 fedora22 64bit 我的CUnit的头文件在 usr include CUnit 库文件在 usr lib64 文件 l
  • Scene窗口—Scene视图导航

    Scene 视图导航 Scene 视图具有一组可用于快速有效移动的导航控件 场景视图辅助图标 场景视图辅助图标 Scene Gizmo 位于 Scene 视图的右上角 此控件用于显示 Scene 视图摄像机的当前方向 并允许快速修改视角和投
  • 部署CNI网络插件 The connection to the server raw.githubusercontent.com was refused - did you specify the r

    访问不了 解决方案 1 找到域名对应的ip地址 域名ip查询链接链接 http ip tool chinaz com 2 etc hosts中添加主机ip映射信息 3 重新获取 kubectl apply f https raw githu
  • Android 13.0 Launcher3定制之双层改单层(去掉抽屉式三)

    1 概述 在13 0的系统产品开发中 对于在Launcher3中的抽屉模式中 系统默认的就是抽屉单层模式 但是在很多产品中需要默认为 单层模式 就是要求去掉双层抽屉模式 接下来看下如何继续实现去掉抽屉双层模式 来变成单层模式第三节 2 La
  • Centos彻底删除文件夹、文件命令

    centos彻底删除文件夹 文件命令 centos彻底删除文件夹 文件命令 centos 新建 删除 移动 复制等命令 1 新建文件夹 mkdir 文件名 新建一个名为test的文件夹在home下 view source1 mkdir ho
  • 谷歌身份验证器二维码

    otpauth totp ACCOUNT secret SECRET issuer NAME ACCOUNT账户名称 SECRET密钥 NAME发布者 公司 网站的名称 e g otpauth totp yimcarson secret V
  • 接口测试时遇到接口加密了该如何处理?

    对明文编码生成信息摘要 以防止被篡改 比如MD5使用的是Hash算法 无论多长的输入 MD5都会输出长度为128bits的一个串 摘要算法不要秘钥 客户端和服务端采用相同的摘要算法即可针对同一段明文获取一致的密文 对称加密 对称加密算法是共
  • 冒泡排序算法的Java实现及优化

    冒泡排序是一种简单但效率较低的排序算法 它通过多次交换相邻元素的位置来实现排序 本篇博客将介绍如何使用Java编程语言实现冒泡排序算法 并对其进行优化 首先 让我们来了解一下冒泡排序的基本原理 冒泡排序的思想是从数组的起始位置开始 比较相邻
  • Java 8 Stream 流用法及语法

    Java 8 Stream 流用法 1 简介 Stream流 最全的用法 Stream 能用来干什么 用来处理集合 通过 使用Stream API 对集合数据进行操作 就类似于使用 SQL 执行的数据库查询 Stream API 提供了一种
  • 统计学——卡方检验和卡方分布

    什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法 它属于非参数检验的范畴 主要是比较两个及两个以上样本率 构成比 以及两个分类变量的关联性分析 其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题 它在分类资料统计