目录
ToothGrowth数据集双因素方差分析
一、研究目的
二、数据来源和相关说明
三、描述性分析
3.1 样本描述
3.2 样本均值
3.3 箱线图
四、数学建模
五、结论与建议
5.1 结论
5.2 建议
六、代码
ToothGrowth数据集双因素方差分析
摘要 基于描述性统计分析与双因素方差分析,得出如下结论:药物种类与药物剂量对豚鼠牙齿长度存在显著性影响,且两者存在交互效应。组合水平supp=vc,dose=2.0下,豚鼠牙齿长度最长;在supp=OJ,dose=1.0组合水平下豚鼠牙齿长度平均长度为22.70。基于上述结论,本文提出了优先选择抗血酸,且适当增加剂量以促进豚鼠牙齿生长的建议。
一、研究目的
ToothGrowth为R内置数据集。它包含一项评估维生素C对豚鼠牙齿生长的影响的研究数据。实验在60只豚鼠上进行,其中每只豚鼠通过两种递送方法(橙汁,OJ,或抗坏血酸,VC)分别接受三种剂量水平的维生素C量(0.5、1和2 mg /天, VC)。实验者测量了牙齿生长的长度。牙齿生长数据集包含了研究维生素C对60只豚鼠牙齿生长影响的实验结果。每只动物通过两种给药方法(橙汁或抗坏血酸(一种维生素C,编码为VC)中的一种,接受三种剂量水平的维生素C(0.5、1和2 mg/天)。基于此背景,本文欲探究药物种类与剂量是否对豚鼠牙齿长度有显著影响。
二、数据来源和相关说明
数据来源于R语言内置数据集ToothGrowth,是60*3维数据。即包含60个观测数据和三个变量——len、supp和dos。这三个变量含义分别为牙齿长度、药物种类与药物剂量。
三、描述性分析
为了获得对数据的整体了解, 本文首先进行了描述性统计分析。
3.1 样本描述
表 3-1 样本描述
变量名 |
最小值 |
中位数 |
最大值 |
平均值 |
len |
4.2 |
19.25 |
33.9 |
18.81 |
supp |
OJ/VC |
dose |
0.5/1.0/2.0 |
由表3-1可以得出:豚鼠牙齿长度处于4.2-33.9之间,数据平均水平为19.25(中位数)与18.81(平均值)。药物种类有OJ和VC两种,剂量有0.5、1.0和2.0三种。
表 3-2 样本数量
supp/dose |
0.5 |
1 |
2 |
OJ |
10 |
10 |
10 |
VC |
10 |
10 |
10 |
六种处理下,每种处理的样本量均为10。
3.2 样本均值
图 3-1 各种处理下豚鼠牙齿长度均值图形
通过交叉分析,获取各种处理下豚鼠牙齿长度均值,具体图形和数据如图3-1与表3-3所示。从图形和表格中可以得出:六种处理方式中,supp=vc,dose=2.0时,豚鼠牙齿长度均值最大;在supp=OJ,dose=1.0组合水平下豚鼠牙齿长度平均长度为22.70。
表 3-3 各种处理下豚鼠牙齿长度均值数据
supp |
dose |
长度均值 |
长度方差 |
OJ |
0.5 |
13.23 |
4.460 |
VC |
0.5 |
7.98 |
2.747 |
OJ |
1.0 |
22.70 |
3.911 |
VC |
1.0 |
16.77 |
2.515 |
OJ |
2.0 |
26.06 |
2.655 |
VC |
2.0 |
26.14 |
4.798 |
3.3 箱线图
图 3-2 各组合水平下豚鼠牙齿长度箱线图
由图3-2可以得出:各组合水平下,豚鼠牙齿长度存在较大影响。如dose=0.5/1.0时,supp=OJ时牙齿长度均值明显比supp=VC高;各个剂量下,牙齿长度均值也存在较大差异,整体而言剂量越大,牙齿长度均值也越大。
四、数学建模
本文基于双因素方差分析模型,分析药物种类与剂量是否对豚鼠牙齿长度是否有显著性影响。进行分析前,首先对数据进行正态性与方差齐性检验,本文采用了Shapiro与levene检验方法,检验P值如表4-1所示。检验P值均>0.05,即在显著性水平α=0.05 下接受原假设,即认为数据满足正态性与方差齐性。
表4-1 正态性与方差齐性检验
|
正态性检验 |
方差齐性检验 |
p-value |
0.1091 |
0.1484 |
不考虑交互效应,建立双因素方差分析模型。模型检验结果如表4-2所示。变量dose和supp的检验P值均<0.05,即认为药物种类和药物剂量均对牙齿长度有显著影响。
表 4-2 无交互效应的双因素方差分析模型结果
|
Df |
Sum Sq |
Mean Sq |
F value |
Pr(>F) |
dose |
1 |
2224.3 |
2224.3 |
123.99 |
6.31e-16*** |
supp |
1 |
205.3 |
205.3 |
11.45 |
0.0013** |
Residuals |
57 |
1022.6 |
17.9 |
|
|
考虑交互效应,建立双因素方差分析模型。模型检验结果如表4-4所示。变量dose、supp和交互项dose:supp的检验P值均<0.05,即认为两个变量之间存在交互效应,同时药物种类和药物剂量均对牙齿长度有显著影响。
表4-4 有交互效应的双因素方差分析模型结果
|
Df |
Sum Sq |
Mean Sq |
F value |
Pr(>F) |
dose |
1 |
2224.3 |
2224.3 |
133.415 |
<2e-16*** |
supp |
1 |
205.3 |
205.3 |
12.317 |
0.000894*** |
dose:supp |
1 |
88.9 |
88.9 |
5.333 |
0.024631* |
Residuals |
56 |
933.6 |
16.7 |
|
|
对两个模型进行检验,进而分析是否去除交互效应。检验结果如表4-5所示。检验P值<0.05,即在显著性水平α=0.05 下拒绝原假设,认为存在两个模型之间存在差异性,即交互项不可剔除。
表 4-5 两种模型检验结果
|
Res.Df |
RSS |
Df |
Sum of Sq |
F |
Pr(>F) |
model 1 |
57 |
1022.56 |
|
|
|
|
model 2 |
56 |
933.63 |
1 |
88.92 |
5.3335 |
0.02463* |
五、结论与建议
5.1 结论
基于描述性统计分析与双因素方差分析,得出如下结论:药物种类与药物剂量对豚鼠牙齿长度存在显著性影响,且两者存在交互效应。组合水平supp=vc,dose=2.0下,豚鼠牙齿长度最长;在supp=OJ,dose=1.0组合水平下豚鼠牙齿长度平均长度为22.70。
5.2 建议
在条件允许情况下,可以考虑优先选择药物抗血酸,且适当增加剂量,此时豚鼠牙齿长度较长。
六、代码
attach(ToothGrowth)
dose=factor(ToothGrowth$dose)
#方差齐性检验
#检验正态性和方差齐性
library(car)
shapiro.test(ToothGrowth$len)
leveneTest(len ~ dose*supp, data = ToothGrowth)
table(supp,dose)
summary(ToothGrowth)
dim(ToothGrowth)
str(ToothGrowth)
#查看各组样本量
table(supp, dose)
aggregate(len, by = list(supp,dose), FUN = mean) # 求各组均值
aggregate(len, by = list(supp,dose), FUN = sd) # 求各组方差
library(gplots)
plotmeans(len ~ interaction(supp, dose, sep = ' '),
connect = list(c(1,3,5),c(2,4,6)),
col = c('orange', 'pink'),
main = 'interaction plot with 95% CI',
xlab = 'treatment and dose combination')
## connect()参数 定义 X轴的位置
#绘制箱线图
library(ggplot2)
ggplot(ToothGrowth,aes(dose,len,color = supp)) +geom_boxplot()
#不考虑交互效应
aov1=aov(len~dose+supp,ToothGrowth)
summary(aov1)
#考虑交互效应
aov2=aov(len~dose*supp,ToothGrowth)
summary(aov2)
#检验两个模型之间是否存在差异
anova(aov1,aov2)
个人见解,还请各位读者批评指正。