假设检验_一篇搞懂假设检验

2023-05-16

前言:对于数据分析师来说,统计学是必不可少的基础知识。不仅工作中会经常运用其概念,且也几乎是数据分析师工作的面试必考题(尤其是校招以及转行的朋友,当实战经验少的时侯会更关注基础功底是否扎实)。所以我准备开始以较简练的语言,辅以简单易懂案例,总结一些统计学核心的知识点。我们常用的ab实验,其背后的原理就是统计学中的假设检验,今天我们来详细说说假设检验。

一、常用核心概念

什么是假设检验:假设就是对从总体参数(均值、比例等)的具体数值所作的陈述,比如,我认为配方一比配方二的效果要好。而假设检验就是先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程,比如上面的假设信息我该接受还是拒绝。

什么是显著性水平:显著性水平是一个概率值,原假设为真时,拒绝原假设的概率,表示为α,常取值为0.05、0.01、0.10。一个公司招聘,本来准备招聘100个人,公司希望只有5%的人是混水摸鱼招聘进来,所以可能会有5个人混进来,所谓显著性水平α,就是你允许有多少比例混水摸鱼的能通过测试。

原假设与备择假设:待检验的假设又叫原假设(零假设),一般表示为H0,原假设一般表示两者没有显著性差异。与原假设进行对比的叫备择假设,表示为H1。一般在比较的时候,主要有等于、大于、小于。

检验统计量:即计算检验的统计量。根据给定的显著性水平,查表得出相应的临界值。再将检验统计量的值与该显著性水平的临界值进行比较,得出是否拒绝原假设的结论。

P值:是一个概率值,如果原假设为真,p值是抽样分布中大于或小于样本统计量的概率。左检验时,p值为曲线上方小于等于检验统计量部分的面积。右检验时,p值为曲线上方大于等于检验统计量部分的面积。

假设检验的两种错误:类型 I 错误(弃真),如原假设为真,但否定它,则会犯类型 I 错误。犯类型 I 错误的概率为 α(即您为假设检验设置的显著性水平)。α 为 0.05 表明,当您否定原假设时,您愿意接受 5% 的犯错概率。为了降低此风险,必须使用较低的 α 值。但是,使用的α值越小,在差值确实存在时检测到实际差值的可能性也越小。类型 II 错误(采伪),如原假设为假,但无法否定它,则会犯类型 II 错误。犯类型 II 错误的概率为 β,β 依赖检验功效。可以通过确保检验具有足够大的功效来降低犯类型 II 错误所带来的风险。方法是确保样本数量足够大,以便在差值确实存在时检测到实际差值。

单双测检验:当假设关键词有不得少于/低于的时候用左侧检验,比如灯泡的使用寿命不得少于/低于700小时时;当假设关键词有不得多于/高于的时候用右侧检验,比如次品率不得多于/高于5%时。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H0:μ1=μ2。

检验结果:单侧,若p值>α,不拒绝H0,若p值1/2α,不拒绝H0,若p值<1/2α,拒绝H0

二、假设检验方法

假设检验方法:z检验,t检验,卡方检验(卡方本篇不详述,应用较少)

2.1 Z检验

Z检验原理:当总体标准差已知,样本量较大时用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。如果检验一个样本平均数与一个已知的总体平均数的差异是否显著,其Z值计算公式为:

如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,其Z值计算公式为:

Z检验实例:

研究正常人与高血压患者胆固醇含量,比较两组血清胆固醇含量有无显著差异。

正常人组数据:n1=506(样本量) μ1=180.6(样本均值) s1=34.2(标准差)

高血压组数据:n2=142 μ2=223.6 s2=45.8

1、提出假设,规定适当检验统计量,确定检验水平:

H0:μ1=μ2

H1:μ1≠μ2

α=0.05,样本量较大,且检验来自两组样本平均数的差异性,故选择z检验统计量

2、计算统计量z值

将已知数据带入z检验公式,

计算假设检验统计量 z=10.4

α=0.05,双侧故 α/2=0.025,1-α=0.975 查表,确认临界值为1.96

3、确定p值,做出推断结论

10.4(z值)>1.96(临界值),故p<0.05,按α=0.05水准拒绝H0,接受H1,可以认为正常人和高血压患者的血清胆固醇含量有差异。

2.2 t检验

t检验:分为单样本的t检验、配对样本均数t检验(本篇不详细说)、两独立样本均数t检验。t检验应用于两组计量资料小样本比较,样本对总体有较好代表性,对比组间有较好组间均衡性,即随机抽样和随机分组。且样本来自正态分布总体。单个样本t检验适用于样本均数与已知总体均数μ0的比较,目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。应用于总体标准α未知的小样本资料,且服从正态分布。

单样本t检验实例:

某地新生儿出生体重为3.3kg,从该地难产儿中随机抽取35名婴儿,平均体重为3.42kg,标准差为0.4kg,问该地难产儿出生体重与新生儿体重是否不同?

1、提出假设,规定适当检验统计量,确定检验水平:

H0:μ=μ0

H1:μ≠μ0

α=0.05 ,样本均数与已知总体均数μ0的比较,所以选择单样本t检验

2、计算统计量z值

n=35 μ0=3.3 μ=3.42 s=0.4

自由度=n-1=34,α=0.05,双侧故 α/2=0.025,1-α=0.975,自由度34,查表得出临界值为2.032

3、确定p值,做出推断结论

因为1.77(z值)<2.032(临界值),故p>0.05,按α=0.05水平,差别无统计学意义,不拒绝h0,不能认为该地难产儿与新生儿体重有差异。

两独立样本t检验(ab实验背后原理):适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1,σ^2)和N(μ2,σ^2),且两总体方差σ1^2、σ2^2相等,即方差齐性。若两总体方差不等需要先进行变换。两独立样本t检验的检验假设是两总体均数相等,即H0:μ1=μ2,统计量计算公式为:

两独立样本t检验实例:

25例糖尿病患者随机分成两组,甲单纯药物治疗,乙采用药物合并饮食治疗,二月后测空腹血糖如下,问两种疗法血糖值是否相同?

数据:n1=12 s1=182.5 n2=13 s2=141

1、提出假设,规定适当检验统计量,确定检验水平:

H0:μ1=μ2 H1:μ1≠μ2

α=0.05, 选用两独立样本t检验方法

2、计算统计量z值

将数据带入公式,计算得t=2.639

自由度=n1+n2-2=23 α=0.05,双侧故 α/2=0.025,1-α=0.975,查表得临界值为 t=2.069

3、确定p值,做出推断结论

因为2.639(t值)>2.069(临界值) ,故 p<0.05 , 在0.05水准下,拒绝H0,接受H1,存在显著性差异,故认为两种疗法效果不同。

作者:赵小洛 一线互联网公司数据分析师、商业分析师,主刊互联网数据分析相关、方法论、复盘、思考总结。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

假设检验_一篇搞懂假设检验 的相关文章

  • Linux编译中./configure、make、make install的作用

    原文 xff1a https www linuxidc com Linux 2011 02 32211 htm configure make make install 这些都是典型的使用GNU的AUTOCONF和AUTOMAKE产生的程序的
  • Settings设置页面的Preference使用方法

    PreferenceActivity创建和使用比较复杂 xff0c Android官方现在不建议使用了 xff0c 使用Preference和fragment的结合更加便利地写出一个settings页面 xff0c 下面来介绍Prefere
  • error while loading shared libraries的解决方案

    当运行程序时会出现如下类似错误时 xff1a error while loading shared libraries libXXXXXXX so 1 cannot open shared object file No such file
  • CentOS安装MySQL

    一 卸载历史版本MySQL 查看是否拥有历史版本 非首次安装需卸载历史版本MySQL xff0c 命令查看是否有安装MySQL历史版本组件 rpm qa grep mysql 例如图片中查询出两个已安装的MySQL社区版组件 xff0c 在
  • 关于C++程序的编码问题

    转自 xff1a http blog chinaunix net uid 26790551 id 3190813 html 我们传统的程序基本都只在Windows或只在Linux下运行 xff0c Windows程序使用简体中文GB1803
  • Ubuntu中Navicat的安装和破解

    1 首先确认已经安装MySQL 输入命令 xff1a service mysql status 如果装了的话 xff0c 默认是开启的 如果没有安装 xff0c 会有提示 1 2 下载Navicat并运行 先下载navicat120 pre
  • Ubuntu python2.7升级python3.5

    出处 xff1a http www cnblogs com wmr95 p 7637077 html 正常情况下 xff0c 你安装好ubuntu16 04版本之后 xff0c 系统会自带 python2 7版本 xff0c 如果需要下载新
  • Ubuntu下Go环境的安装和配置

    1 下载Go语言安装包 用 gcc v命令来查看是否安装了GCC xff0c 安装gcc xff1a sudo apt install gcc 2 下载Go语言安装包 官网下载go语言安装包 地址 xff1a https studygola
  • linux怎么升级gcc版本号,linux yum升级gcc版本

    在上一篇文章linux快速升级gcc版本中 gcc被yum升级到了4 8 2 今天重新在新的机器上升级gcc的时候 居然出现下面的问题 yum install devtoolset 2 gcc devtoolset 2 binutils d
  • python语音播报天气预报_python每日天气播报

    冬天来了 xff0c 作为特困户 xff0c 每天早上起床速度都打败全国3 的人 仓促出门 xff0c 常常不是穿少了就是没带伞没带口罩 于是我就用python写了个每日天气播报跑在树莓派上 xff0c 既可以当闹钟 xff0c 又可以预报
  • HTML多选框滚动条,el-select 下拉框多选实现全选的实现

    在写一个功能时发现el select支持多选 xff0c 但是竟然不支持全选 xff0c 好无语哦 xff0c 那就自己实现一下吧 有两种方法 xff0c 第二种感觉简单些 方法一 xff1a 下拉项增加一个 全选 xff0c 然后应该有以
  • Java2教程_给初学者的RxJava2.0教程(二)

    Outline TOC 前言 上一节教程讲解了最基本的RxJava2的使用 在本节中 我们将学习RxJava强大的线程控制 正题 还是以之前的例子 两根水管 RxJava 正常情况下 上游和下游是工作在同一个线程中的 也就是说上游在哪个线程
  • Linux POSIX信号量、实现生产者消费者模型

    posix与system v的区别 之前我们在进程间通信中学到过system v版本的信号量 xff0c 它和posix的区别在于 xff1a system v版本的用于进程之间 xff0c posix版本的用于线程之间 他们的主要区别在于
  • ZYQN7000系列VxWorks驱动开发:VxWorks系统移植

    文章目录 ZYQN7000驱动开发 VxWorks系统移植1 硬件环境2 编译vsb和vip工程2 1修改设备树文件2 2添加调试打印组件 3 选择uboot来启动VxWorks内核4 尝试在开发板上启动内核4 1 拷贝镜像和设备树至SD卡
  • SpringBoot整合log4j2

    1 添加依赖 lt springboot 基础包 gt lt dependency gt lt groupId gt org springframework boot lt groupId gt lt artifactId gt sprin
  • java 调用vba_VBA调用cmd命令行下执行的命令 | 学步园

    1 启动 Windows 命令解释程序 CMD A U Q D E ON E OFF F ON F OFF V ON V OFF S C K string C 执行字符串指定的命令然后中止 K 执行字符串指定的命令但保留 S 在 C 或 K
  • retrievefile java_FTPSClient retrievefile()挂起

    我正在创建一个apache FTPS客户端 因为远程服务器不允许普通FTP 我可以毫无问题地连接和删除文件 xff0c 但是当使用retrieveFile 或retrieveFileStream 时 xff0c 它会挂起 由于某种原因 xf
  • centos运行java图形化界面_CentOS服务器安装图形界面GNOME Desktop的方法

    在腾讯云的centos云服务器上如果你要使用图形界面 xff0c 比如图形界面安装oracle xff0c 应该怎么做 xff1f 今天就和大家分享下图形界面的安装和vnc的搭建 xff0c 来解决刚才提到的问题 安装可能导致DNS被清空
  • 服务器虚拟机声卡无法加载,Esxi虚拟机添加声卡

    如果你有意在ESXI中使用音频的话 xff0c 通常会发现虚拟机设置中无法添加声卡 xff0c 那么ESXI是否真的不支持音频呢 xff1f 非也 软件平台 VMwaer ESXI 6 0 43 VMware Workstation 12
  • 云服务器的远程,云服务器远程连接登陆

    windows2003 windows2003 43 管理助手 xff1a 我司云主机windows2003系统默认远程桌面端口号为51389 xff0c 连接时需要指定这个端口号才能连接 1 在开始菜单点击运行或按 Win 43 R 组合

随机推荐