统计建模与r软件课后习题五 5.1~5.11题

2023-11-19

第五章 假设检验

在这里插入图片描述
问题导向:由正常男子血小板计数均值这句话,容易判断属于对均值进行检验的问题

H0:与正常男子无差异等于225    H1:与正常男子有差异,不等于225
 x=c(220, 188, 162, 230, 145, 160, 238,
+  188, 247, 113, 126, 245, 164, 231, 256, 183, 190, 158, 224, 175)
 t.test(x,mu=225)
 运行结果如下:

        One Sample t-test

data:  x
t = -3.4783, df = 19, p-value = 0.002516
alternative hypothesis: true mean is not equal to 225
95 percent confidence interval:
 172.3827 211.9173
sample estimates:
mean of x 
   192.15 

t.test()函数格式:
t.test(x,y=NULL,alternative=c('two.sided','less','greater',mu=0,conf.level=0.95)
x,y表示向量,alternative=c('two.sided','less','greater')备择假设,默认为'two.sided',双边检验,mu:均值,默认为零均值,conf.level:显著性水平,以上都是缺省时的默认值

p-value = 0.002516<0.05,拒绝原假设,油漆工人的血小板数与正常男子有差异,并且mean of x =192.15 <225,说明油漆工人的血小板数小于正常男子。

在这里插入图片描述
问题导向:求概率,求P{X>x}的值,x为1000

x=c(1067 ,919 ,1196 ,785,1126 ,936 , 918, 1156 , 920 ,948)
pnorm(1000,mean(x),sd(x))  #pnorm(x,mean(x),sd(x))求符合正态分布x的分布函数
[1] 0.5087941

#得P值为0.5087941,也就是P{X<x}=0.5087941,则P{X>x}=1-0.5087941=0.4912059


在这里插入图片描述
补充知识点:原假设和备择假设的选择,原假设一般为我们不希望的结果,是拿来拒绝的,不能轻易否定,等号在原假设中。备择假设是我们希望的结果,一般而言研究什么问题就放在备择假设中,先确定备择假设

该题目研究的是两种方法治疗贫血的效果,比较的是谁好谁坏,备择假设就选两者有差异

H0:两种方法治疗无差异  H1:两种方法治疗有差异
> A=c(113,120,138,120,100,118,138,123)
> B=c(138,116,125,136,110,132,130,110)
> t.test(A,B,paired=TRUE)  #paired=TRUE,表示成对数据,缺省时为FALSE

        Paired t-test

data:  A and B
t = -0.65127, df = 7, p-value = 0.5357
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.628891   8.878891
sample estimates:
mean of the differences 
                 -3.375 

p-value = 0.5357>0.05,不能拒绝原假设,两种方法治疗无差异,效果相同

另外一种方法:
> t.test(A-B) #Z=A-B,对Z做单样本均值检验要优于双样本均值检验,成对数据的t检验
结果一样
        One Sample t-test

data:  A - B
t = -0.65127, df = 7, p-value = 0.5357
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -15.628891   8.878891
sample estimates:
mean of x 
   -3.375 

在这里插入图片描述
(1)H0:样本来自正态分布总体 H1:样本不来自正态分布总体

1.正态性W检验方法
> x=c(-0.7,-5.6,2,2.8,0.7,3.5,4,5.8,7.1,-0.5,2.5,-1.6,1.7,3,0.4,4.5,4.6,2.5,6,-1.4)
> y=c(3.7,6.5,5,5.2,0.8,0.2,0.6,3.4,6.6,-1.1,6,3.8,2,1.6,2,2.2,1.2,3.1,1.7,-2)                    
> shapiro.test(x) 

        Shapiro-Wilk normality test

data:  x
W = 0.9699, p-value = 0.7527


> shapiro.test(y)

        Shapiro-Wilk normality test

data:  y
W = 0.97098, p-value = 0.7754

结果:x 和 y的P值都大于0.05,不能拒绝原假设,认为x和y都来自正态分布总体

2.Kolmogorov_Smirnov检验方法

> ks.test(x,"pnorm",mean(x),sd(x)) 
>  #多说一句:如果x服从指数分布ks.test(x,'pexp','指数分布的参数')

        One-sample Kolmogorov-Smirnov test

data:  x
D = 0.10652, p-value = 0.9771
alternative hypothesis: two-sided

Warning message:
In ks.test(x, "pnorm", mean(x), sd(x)) :
  ties should not be present for the Kolmogorov-Smirnov test


> ks.test(y,"pnorm",mean(y),sd(y))

        One-sample Kolmogorov-Smirnov test

data:  y
D = 0.11969, p-value = 0.9368
alternative hypothesis: two-sided

Warning message:

结果:x和y的P值都大于0.05,有显著的理由不能拒绝原假设,认为x和y都来自正态分布总体

3.pearson拟合优度检验 

> sort(x)  #先对x进行从小到大排序
 [1] -5.6 -1.6 -1.4 -0.7 -0.5  0.4  0.7  1.7  2.0  2.5  2.5  2.8  3.0  3.5
[15]  4.0  4.5  4.6  5.8  6.0  7.1
> cut(x,br=c(-6,-3,0,3,6,9))#将变量分成若干小区间,br相当于在绘制频率分布直方图时,x轴构成的向量
 [1] (-3,0]  (-6,-3] (0,3]   (0,3]   (0,3]   (3,6]   (3,6]   (3,6]   (6,9]  
[10] (-3,0]  (0,3]   (-3,0]  (0,3]   (0,3]   (0,3]   (3,6]   (3,6]   (0,3]  
[19] (3,6]   (-3,0] 
Levels: (-6,-3] (-3,0] (0,3] (3,6] (6,9]
> t=table(cut(x,br=c(-6,-3,0,3,6,9)))#计算随机变量落在某个区间的频数
 
 (-6,-3]  (-3,0]   (0,3]   (3,6]   (6,9] 
      1       4       8       6       1 
> p=pnorm(c(-3,0,3,6,9),mean(x),sd(x))#我不理解这里的c(-3,0,3,6,9)
> p
[1] 0.04894712 0.24990009 0.62002288 0.90075856 0.98828138

> chisq.test(t,p=p)#P分布函数
Error in chisq.test(t, p = p) : probabilities must sum to 1.
报错,我也不明白。。。


(2)两组数据的均值检验
H0:两组数据均值无差异 ,均值相等 H1:两组数据均值有差异

1.方差相同模型t检验:
> t.test(x,y,var.equal=TRUE)

        Two Sample t-test

data:  x and y
t = -0.64187, df = 38, p-value = 0.5248
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.326179  1.206179
sample estimates:
mean of x mean of y 
    2.065     2.625 


2.方差不同的模型t检验:
> t.test(x,y)  #默认不相同

        Welch Two Sample t-test

data:  x and y
t = -0.64187, df = 36.086, p-value = 0.525
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.32926  1.20926
sample estimates:
mean of x mean of y 
    2.065     2.625 


3.成对数据的t检验:
> t.test(x-y)

        One Sample t-test

data:  x - y
t = -0.64644, df = 19, p-value = 0.5257
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -2.373146  1.253146
sample estimates:
mean of x 
    -0.56 


结果:三种检验的P值都大于0.05,不能拒绝原假设,两组数据均值无差异

(3)对方差是否相同进行检验
H0:方差相同 H1:方差不相同

> var.test(x,y)

        F test to compare two variances

data:  x and y
F = 1.5984, num df = 19, denom df = 19, p-value = 0.3153
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.6326505 4.0381795
sample estimates:
ratio of variances 
          1.598361 

结果:P值大于0.05,接受原假设,两组数据方差相同。

在这里插入图片描述
(1) H0:样本服从正态分布 H1:样本不服从正态分布
正态性检验,采用ks检验:

> a=c(126,125,136,128,123,138,142,116,110,108,115,140)
> b=c(162,172,177,170,175,152,157,159,160,162)
> ks.test(a,"pnorm",mean(a),sd(a))  #检验a

        One-sample Kolmogorov-Smirnov test

data:  a
D = 0.14644, p-value = 0.9266
alternative hypothesis: two-sided


> ks.test(b,"pnorm",mean(b),sd(b))  #检验b

        One-sample Kolmogorov-Smirnov test

data:  b
D = 0.22216, p-value = 0.707
alternative hypothesis: two-sided

Warning message:      #不知道为什么有警告信息
In ks.test(b, "pnorm", mean(b), sd(b)) :
  ties should not be present for the Kolmogorov-Smirnov test

结果:p-value = 0.9266>0.05,p-value = 0.707>0.05,有充分的理由不能拒绝原假设,认为两个样本都服从正态分布
(2)对方差进行检验
H0:方差相同 H1:方差不相同

> var.test(a,b)

        F test to compare two variances

data:  a and b
F = 1.9646, num df = 11, denom df = 9, p-value = 0.32
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.5021943 7.0488630
sample estimates:
ratio of variances 
          1.964622 

结果:p-value = 0.32>0.05,不能拒绝原假设,认为a,b方差相同

(3)对均值进行检验
H0:均值相同 ,无差别 H1:均值不相同

> t.test(a,b,var.equal=TRUE)

        Two Sample t-test

data:  a and b
t = -8.8148, df = 20, p-value = 2.524e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -48.24975 -29.78358
sample estimates:
mean of x mean of y 
 125.5833  164.6000 

结果:p-value = 2.524e-08<0.05,拒绝原假设,新药组和对照组二者有差别
在这里插入图片描述
问题导向:二项分布的假设检验
H0: 支持该市老年人口比重14.7%的看法 H1:不支持该市老年人口比重14.7%的看法

> binom.test(57,400,p=0.147)  #binom.test(成功次数,试验总次数,p=原假设概率)

        Exact binomial test

data:  57 and 400
number of successes = 57, number of trials = 400, p-value = 0.8876
alternative hypothesis: true probability of success is not equal to 0.147
95 percent confidence interval:
 0.1097477 0.1806511
sample estimates:
probability of success 
                0.1425 

结果:p-value = 0.8876>0.05,支持该市老年人口比重14.7%的看法

在这里插入图片描述
问题导向:雏鸡分为母雏和公雏,性别比例为1:1,则原来公雏:母雏=1:1,各占1/2,属于二项分布的假设检验
H0: p=0.5 H1:p>0.5

> binom.test(178,328,p=0.5,alternative="greater")  #第一种方法:成功次数,试验的总次数

        Exact binomial test

data:  178 and 328
number of successes = 178, number of trials = 328, p-value = 0.06794
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.4957616 1.0000000
sample estimates:
probability of success 
             0.5426829 



> binom.test(c(178,150),p=0.5,alternative="greater") 
>  #第二种方法:c(成功次数,失败次数)

        Exact binomial test

data:  c(178, 150)
number of successes = 178, number of trials = 328, p-value = 0.06794
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.4957616 1.0000000
sample estimates:
probability of success 
             0.5426829 
两种方法结果是一样的,表达不同

结果:p-value = 0.06794>0.05,不能拒绝原假设,认为这种处理能增加母鸡的比例。

在这里插入图片描述
利用pearson卡方检验是否符合特定分布:
H0: 符合自由组合规律 H1:不符合自由组合规律

> chisq.test(c(315,101,108,32),p=c(9/16,3/16,3/16,1/16))#p为特定的分布,默认为均匀分布

        Chi-squared test for given probabilities

data:  c(315, 101, 108, 32)
X-squared = 0.47002, df = 3, p-value = 0.9254

结果:p-value = 0.9254>0.05,认为符合自由组合规律

在这里插入图片描述
这里用pearson检验,泊松分布的均值就为参数
H0: X服从泊松分布 H1:X不服从泊松分布

> x =c(0, 1, 2, 3, 4, 5)
> y =c(92, 68, 28, 11, 1, 0)
> # 因为y的最后一组的频数小于5,卡方检验为出错,需要把最后两组和前面的合并
> y =c(92, 68, 28, 12)
> # 计算泊松分布的理论分布概率,其中,mean(rep(x,y))为样本均值
> q =ppois(x, mean(c(rep(0, 92), rep(1, 68), rep(2, 28), rep(3, 11), rep(4, 1), rep(5, 0))))
> 
> q
[1] 0.4470879 0.8069937 0.9518558 0.9907271 0.9985500 0.9998094
> chisq.test(c(92, 68, 28, 12), p = c(q[1], q[2] - q[1], q[3] - q[2], 1 - q[3]))#  我一直都不明白为什么要减

        Chi-squared test for given probabilities

data:  c(92, 68, 28, 12)
X-squared = 0.91132, df = 3, p-value = 0.8227



错误的一种做法:
> ks.test(c(92, 68, 28, 11,10,0),'ppois',mean(c(rep(0, 92), rep(1, 68), rep(2, 28), rep(3, 11), rep(4, 1), rep(5, 0))))

        One-sample Kolmogorov-Smirnov test

data:  c(92, 68, 28, 11, 10, 0)
D = 0.83333, p-value = 4.287e-05
alternative hypothesis: two-sided


结果:p-value = 0.8227>0.05,X服从泊松分布
在这里插入图片描述
用双样本的ks检验
H0: 两分布相同 H1:两分布不相同

#ks检验 两个分布是否相同:
> x=c(2.36,3.14,752,3.48,2.76,5.43,6.54,7.41)
> y=c(4.38,4.25,6.53,3.28,7.21,6.55)
>  ks.test(x,y)

        Two-sample Kolmogorov-Smirnov test

data:  x and y
D = 0.375, p-value = 0.6374
alternative hypothesis: two-sided

结果:p-value = 0.6374>0.05,认为两分布相同,来自同一个总体

在这里插入图片描述
列联表数据的独立性检验
研究的是使用检测仪对剖腹产有无影响
H0: 二者独立,无影响 H1:二者不独立 ,有影响

> x = c(358,2492,229,2745)
> dim(x)=c(2,2)#定义维度为2行2列
> chisq.test(x)

        Pearson's Chi-squared test with Yates' continuity correction

data:  x
X-squared = 37.414, df = 1, p-value = 9.552e-10


结果:p-value = 9.552e-10<0.05,拒绝原假设,认为使用检测仪对剖腹产有影响
在这里插入图片描述
列联表数据的独立性检验
H0: 二者独立 H1:二者不独立

> y=matrix(c(45 ,12 ,10 ,46 ,20, 28, 28,23 ,30 ,11 ,12,35),nrow=4,ncol=3)  #默认为按列存放数据
> 
> y
     [,1] [,2] [,3]
[1,]   45   20   30
[2,]   12   28   11
[3,]   10   28   12
[4,]   46   23   35
> chisq.test(y)

        Pearson's Chi-squared test

data:  y
X-squared = 36.043, df = 6, p-value = 2.705e-06


p-value = 2.705e-06<0.05,拒绝原假设,A与B不独立,有关系。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

统计建模与r软件课后习题五 5.1~5.11题 的相关文章

  • 【数电】常用时序逻辑电路模块总结

    文章目录 同步置零和异步置零 同步预置数和异步预置数 一 移位寄存器 I D触发器构成的4位移位寄存器 II 双向移位寄存器 74HC194 二 计数器 I 同步计数器 i 同步二进制计数器 1 同步二进制加法计数器 74161 2 同步二

随机推荐

  • iOS中自动消失提示框的实现

    iOS中自动消失提示框的实现 添加一个提示框 UIAlertView alert UIAlertView alloc initWithTitle 提示 message 你很漂亮 delegate self cancelButtonTitle
  • chrome浏览器安装失败,已解决(方便)

    原因分析 如果是第一次安装 一般都会安装成功 倘若报错后安装失败 说明之前电脑上存在Google Chrome 谷歌浏览器 安装的残余 导致再次安装时 无法将安装的数据正常的写入注册表 因为在软件安装过程中 都会将必要的文件添加到注册表中
  • 大数据学习之Scala——02Scala基础

    一 杂项 1 Scala语言输出的三种方式 字符串通过 号连接 类似java printf用法 类似C语言 字符串通过 传值 格式化输出 字符串插值 通过 引用 类似PHP println name name age age url url
  • dosbox中out of memory_在Rust中实现goto逻辑

    众所周知 在Rust中是没有goto表达式的 最近在 试着用Rust练习翻新一些古代陈旧代码 结果这堆古代的pascal代码中就有很多goto语句 于是写了几个宏来模拟了一下 在这里也写一篇文章介绍一下 希望给大家在思路上有所帮助 如果不想
  • ​​PMP项目管理—第3章 项目经理的角色。

    PMBOK项目管理知识体系指南 PMP项目管理学习笔记 总 第1章 引论 第2章 项目运行环境 第3章 项目经理的角色 第4章 项目整合管理 第5章 项目范围管理 第6章 项目进度管理 第7章 项目成本管理 第8章 项目质量管理 第9章 项
  • c/c++入门教程 - 1.基础c/c++ - 1.0 Visual Studio 2019安装环境搭建

    推荐视频课程 https www bilibili com video BV1et411b73Z p 2 已投币三连 b站果然是个学习的网站 本来是想在linux环境下运行QT 于是先学了几个月linux嵌入式驱动开发 后来发现太底层了 与
  • 【FPGA】面试问题及答案整理合集

    面试问题及答案整理合集 1 硬件描述语言和软件编程语言的区别 2 FPGA选型问题 3 建立时间和保持时间问题 3 亚稳态问题 4 竞争和冒险问题 5 乒乓操作问题 6 同步和异步逻辑电路 7 同步复位和异步复位 8 MOORE 与 MEE
  • CUDA异步并发之CUDA流详解

    CUDA中得异步并发 CUDA 将以下操作公开为可以彼此同时操作的独立任务 在主机上计算 设备上的计算 从主机到设备的内存传输 从设备到主机的内存传输 在给定设备的内存中进行内存传输 设备之间的内存传输 这些操作之间实现的并发级别将取决于设
  • 《Transfer Adaptation Learning: A Decade Survey》阅读笔记

    摘要 传统机器学习的目的是通过最小化训练数据的正则化经验风险 对测试数据的最小期望风险最小的模型 但假设训练数据和测试数据具有相似的联合概率分布 TAL的目标是通过从语义相关但分布不同的源域学习知识 来建立能够执行目标域任务的模型 在经典的
  • MySQL必知必会——第四章检索数据

    检索数据 本章将介绍如何使用SELECT语句从表中检索一个或多个数据列 SELECT语句 SQL语句是由简单的英语单词关键字构成的 每个SQL语句都由一个或多个关键字构成 最常用的SQL语句就是SELECT语句 它的用途是从一个或多个表中检
  • cycleGan的算法流程实现

    关于cycleGan的算法流程实现 只是看代码后进行了总结 具体细节可以自行寻找代码查看
  • mybatis逆向工程详细配置讲解(全)

    目录 前言 1 配置文件 2 GeneratorMapper xml 3 启动配置 4 生成文件讲解 5 细节 前言 使用mybatis提供的逆向工程生成实体bean 映射文件 Dao接口 而不用人为的去书写代码 显得比较麻烦 具体代码模块
  • ThreadPoolExecutor是如何处理任务的异常情况

    本文因生产环境线程池某些场景下的任务异常后 日志文件中没有被记录进来产生的困惑引发的思考 当然如果所有异步的业务方法run里面都加上一层try catch 就可以主动捕获所有的异常 也能够记录到日志文件中 然而总有一些人总有一些时候不小心漏
  • workbench连接mysql出现not connected

    用workbench管理工具连接mysql SCHEMAS下显示not connected Information中的Connection下显示NO CONNECTION 如下图 原因是Mysql服务没启动 解决方法 鼠标右键点击 计算机
  • 【python基础知识】13.类与对象(四)

    类与对象 四 前情回顾 类的继承 类的定制 类的继承 要怎么写 类的继承之多层继承 类的继承之多重继承 多层继承VS多重继承 练习题 类的定制 要怎么写 定制 可以新增代码 定制 也可重写代码 结语 前情回顾 之前 我们知道了面向对象编程的
  • 求一个数的所有的质因子。

    一个数的因子 一定有质因子组成 所有的质因子就可以代表这些因子 cin gt gt x vector
  • PM> Install-Package

    PM gt Install Package jQuery Version 1 10 2 To install jQuery run the following command in the Package Manager Console P
  • react hook(基础详解)

    首先我们知道Hook是可以100 向下兼容的 就是说即便在你以前的代码中加入hook写法也没有问题 同时提供了一个更直接的API包括props state context refs以及生命周期 hook编写时使用的代码量也会更少 但这也是一
  • R语言基础备忘-plot()详解

    plot是R中的基本画图工具 直接plot x x为一个数据集 就能画出图 soeasy 但是细节往往制胜的关键 所以就详细来看下plot的所有可设置参数及参数设置方法 下面讲到的图形参数 是graphic包中的常见参数 graphic不同
  • 统计建模与r软件课后习题五 5.1~5.11题

    第五章 假设检验 问题导向 由正常男子血小板计数均值这句话 容易判断属于对均值进行检验的问题 H0 与正常男子无差异等于225 H1 与正常男子有差异 不等于225 x c 220 188 162 230 145 160 238 188 2