R 中分层样本的单向方差分析

2024-03-13

我有一个包含三组（“a”、“b”、“c”）的分层样本，这些样本是从较大的总体 N 中抽取的。所有组都有 30 个观察值，但它们在 N 中的比例不相等，因此它们的采样权重不同。

我用surveyR 中的包来计算汇总统计数据和线性回归模型，并且想知道如何计算单向方差分析来校正调查设计（如果需要）。

我的假设是，如果我错了，请纠正我，对于权重较小的总体，方差的标准误差通常应该更高，因此不考虑调查设计的简单方差分析应该不可靠。

这是一个例子。任何帮助，将不胜感激。

## Oneway- ANOVA tests in R for surveys with stratified sampling-design
library("survey")
# create test data
test.df<-data.frame(
  id=1:90,
  variable=c(rnorm(n = 30,mean=150,sd=10),
             rnorm(n = 30,mean=150,sd=10),
             rnorm(n = 30,mean=140,sd=10)),
  groups=c(rep("a",30),
  rep("b",30),
  rep("c",30)),
  weights=c(rep(1,30), # undersampled
  rep(1,30),
  rep(100,30))) # oversampled


# correct for survey design
test.df.survey<-svydesign(id=~id,
                           strata=~groups,
                           weights=~weights,
                           data=test.df)

## descriptive statistics
# boxplot
svyboxplot(~variable~groups,test.df.survey)
# means
svyby(~variable,~groups,test.df.survey,svymean)
# variances
svyby(~variable,~groups,test.df.survey,svyvar)


### ANOVA ###
## One-way ANOVA without correcting for survey design
summary(aov(formula = variable~groups,data = test.df))

嗯，这是一个有趣的问题，据我所知，很难在单向方差分析中考虑权重。因此，我决定向您展示解决这个问题的方法。

我将使用双向方差分析，然后使用 soem port hoc 测试。

首先，让我们根据您的数据构建一个线性模型并检查它的外观。

library(car)
library(agricolae)
model.lm = lm(variable ~ groups * weights, data = test.df)
shapiro.test(resid(model.lm))

Shapiro-Wilk normality test

data:  resid(model.lm)
W = 0.98238, p-value = 0.263

leveneTest(variable ~ groups * factor(weights), data = test.df)
Levene's Test for Homogeneity of Variance (center = median)
Df F value  Pr(>F)  
group  2  2.6422 0.07692 .
      87                  
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

分布接近正态，组间方差不同，因此方差不是同质的 - 应该用于参数检验 - 方差分析。不管怎样，我们还是进行一下测试吧。

检查我们的数据是否适合此测试的几个图：

hist(resid(model.lm))
plot(model.lm)

Here https://stats.stackexchange.com/questions/58141/interpreting-plot-lm/65864是情节的解释，它们实际上看起来并不糟糕。

让我们运行双向方差分析：

anova(model.lm)
Analysis of Variance Table

Response: variable
          Df Sum Sq Mean Sq F value    Pr(>F)    
groups     2 2267.8 1133.88  9.9566 0.0001277 ***
Residuals 87 9907.8  113.88                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

如您所见，结果非常接近您的结果。一些事后测试：

(result.hsd = HSD.test(model.lm, list('groups', 'weights')))
$statistics
   MSerror Df     Mean     CV      MSD
  113.8831 87 147.8164 7.2195 6.570186

$parameters
   test         name.t ntr StudentizedRange alpha
  Tukey groups:weights   3         3.372163  0.05

$means
      variable       std  r      Min      Max      Q25      Q50      Q75
a:1   150.8601 11.571185 30 113.3240 173.0429 145.2710 151.9689 157.8051
b:1   151.8486  8.330029 30 137.1907 176.9833 147.8404 150.3161 154.7321
c:100 140.7404 11.762979 30 118.0823 163.9753 131.6112 141.1810 147.8231

$comparison
NULL

$groups
      variable groups
b:1   151.8486      a
a:1   150.8601      a
c:100 140.7404      b

attr(,"class")
[1] "group"

也许还有一些不同的方式：

aov_cont<- aov(test.df$variable ~ test.df$groups * test.df$weights)
summary(aov_cont)
               Df Sum Sq Mean Sq F value   Pr(>F)    
test.df$groups  2   2268  1133.9   9.957 0.000128 ***
Residuals      87   9908   113.9                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(TukeyHSD(aov_cont))
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = test.df$variable ~ test.df$groups * test.df$weights)

$`test.df$groups`
           diff        lwr       upr     p adj
b-a   0.9884608  -5.581725  7.558647 0.9315792
c-a -10.1197048 -16.689891 -3.549519 0.0011934
c-b -11.1081657 -17.678352 -4.537980 0.0003461

总结一下，结果非常接近您的结果。就我个人而言，我将运行双向方差分析(*)符号或(+)当您确定变量是独立的时 - 加性模型。

Group c体重较大的群体不同a and b基本上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

sampling

ANOVA

Survey

R 中分层样本的单向方差分析的相关文章

按列分组的数据帧上 R 中的行之间的差异

我希望通过 app name 获得不同版本的计数差异我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
获取所有矩阵列逐元素乘积对的快速方法

假设我有一个数字matrix set seed 1 mat lt matrix rnorm 1000 ncol 100 我想生成所有向量它们是中所有唯一向量对的逐元素乘积的结果mat 我们如何改进下面的代码 all pairs lt t
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
在 R Shiny 中，如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素？

下面的可重现代码适用于将元素从一个面板拖动到另一个面板并在拖动到面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号但是我现在尝试附加到每个拖动到列表元素的末尾使用某种形式的paste0 我假设该元素在拖至
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
如何将 R 数据框中的多个字符列合并为单个列

我正在处理人口普查数据需要将四个字符列合并为一列 Example LOGRECNO STATE COUNTY TRACT BLOCK 60 01 001 021100 1053 61 01 001 021100 1054 62 01 00
使用 data.table 进行分组并选择最短日期

My Data df1 lt structure list ID c A A A B B C c1 1 6 c2 1 6 myDate c 01 01 2015 02 02 2014 03 01 2014 09 09 2009 10 10
具有动态变量数的公式

假设有一些 data framefoo data frame想要找到目标列的回归Y由其他一些专栏为此目的通常使用一些公式和模型例如 linear model lt lm Y FACTOR NAME 1 FACTOR NAME 2 fo
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
如何在 R 中只为直方图的一个标签着色？

我有一个像这样的数据框 CellLines ZEB1 600MPE 2 8186 AU565 2 783 BT20 2 7817 BT474 2 6433 BT483 2 4994 BT549 3 035 CAMA1 2 718 DU447
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
回归时如何设置系数值；右

我正在寻找一种指定预测变量值的方法当我使用当前数据运行 glm 时其中一个变量的系数接近 1 我想将其设置为 0 8 我知道这会给我一个较低的 R 2 值但我先验地知道模型的预测能力会更大 glm 的权重组件看起来很有希望但我还没有
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
使用自定义渐变填充直方图箱

我想在 R 和 ggplot2 中创建一个直方图其中根据连续的 x 值填充箱大多数教程仅通过离散值或密度计数进行着色下列的这个例子 https stackoverflow com questions 40284227 how to
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl

随机推荐

基于变量内容的 bash 大括号扩展不起作用

我怎样才能让 bash 扩展它在传递给 mkdir 的变量中找到的任何内容到目前为止我已经尝试使用eval and bash c 但似乎没有任何作用 LEVEL 1 1 2 3 LEVEL 2 a b c DATA L1 tmp LEVE
Java并行易失性i++

我有一个全局变量 volatile i 0 和两个线程每个执行以下操作 i System out print i 我收到以下组合 12 21 和 22 I understand why I don t get 11 volatile di
React - 在组件中使用 ref 并将其传递给 props 中的父级

更新我的问题实际上是由于拼写错误如果您想在子组件和父组件中使用子元素引用则一般方法可以正常工作下面是该方法的一个工作示例 https codesandbox io s rwj7z7o7oo https codesandbox io
Intel NVMe 驱动器扇区大小不是 4096 的 xfs 文件系统导致性能下降

我正在 Linux Ubuntu 14 04 上使用 NVMe 卡我发现当使用默认扇区大小 512 的 xfs 文件系统进行格式化时 Intel NVMe 卡的性能会出现一些下降或任何其他小于 4096 的扇区大小在实验中我使用默
将 git 存储库添加到 VSP 上的现有文件夹

我的设置如下所示裸仓库在我的根 srv Folder 本地仓库在我的电脑上 Gitlab 仓库 on well Gitlab 我添加了两个源 Gitlab 和我的 Bare Repo 将所有更改从本地计算机推送到源现在我想在我的中设置一
pgbouncer - 关闭是因为：每个连接上的服务器不干净

我正在运行 Django 1 3 和 PostgreSQL 9 1 PostGIS 1 5 psycopg2 2 4 2 和 pgbouncer 1 4 2 在与数据库的每个连接上我都会在 pgbouncer log 中收到一条日志条目
根据AWS标签分配ansible变量

我正在尝试找出一种根据 AWS 中的标签在 Ansible 中分配变量的方法我正在尝试ec2 remote tags但它返回的信息比我需要的多得多似乎应该有一种更简单的方法来做到这一点但我只是没有想到例如如果我有一个名为funct
为什么 multiprocessing.Process.join() 挂起？

我以这种方式使用多处理 import multiprocessing as mp def worker thread id tasks results tmp dir temp for format thread id os makedir
如何找到解决方案中的所有扩展方法？

如何找到解决方案中的所有扩展方法如果我这样做我会在所有文件中搜索字符串 this 您的搜索字符串可能会根据您的格式选项而有所不同 EDIT 经过一点实验以下内容似乎对我来说使用在文件中查找 Ctrl Shift F 可以高精度工作
启动/停止服务器时 MySQL Workbench 冻结

I recently started using MySQL Server and Workbench both version 8 0 and noticed a strange issue When I load Workbench g
如何以编程方式更改 Mac OS X 键盘布局？

我的 Qt 应用程序支持在 Linux 和 Windows 上更改输入语言我还想添加对更改 Mac OSX 中的输入语言的支持不幸的是我没有任何关于 Mac SDK 的信息我在 OS X 上的第一个也是最后一个工作是编译 Qt 并编译
找不到 spring hibernate.cfg.xml

Configuration configuration new Configuration configure hibernate cfg xml 我的配置文件在 src 我仍然收到这个错误有人能发现我的错误吗您正在使用具有标准目录布局
来自文档根目录的 Route-Me 离线地图

在我的应用程序中有一个从 sqlite 文件呈现的离线地图 RMDBMapSource mapSrc RMDBMapSource alloc initWithPath map sqlite RMMapContents contents n
如何在输入密码字段中插入复选框

我希望我的网页在密码字段内显示一个复选框用户单击复选框并查看文本形式的密码取消选中后再次输入其密码 This is what I want This is from the Ebay website login page 这就是我得到
java垃圾收集日志中的“GC--”是什么意思？

我们打开了详细 GC 日志记录来跟踪已知的内存泄漏并在日志中获取以下条目 3607872 687 GC 471630K gt 390767K 462208K 0 0325540 secs 3607873 213 GC 458095K gt
Python 3 如何检查一个值是否已经在列表中的列表中

我的 Python 3 中有一个列表列表 mylist a x x b x x c x x x只是一些数据我有我的代码可以做到这一点 for sublist in mylist if sublist 0 a sublist 1 subli
如何与 AlarmManager 结合启动通知？

我正在尝试弄清楚应该如何启动通知创建通知不是我所要求的而是一种在后台启动它的方法这样它就不引人注目并且用户可以做他们正在做的任何事情它是日历准确地说是提醒同样重要的是要注意我正在使用AlarmManager 我应该使用什么方法
ng-repeat动画完成回调

所以我有一个简单的 ng repeat 和在 javascript 中定义的输入动画沙盒 http codepen io anri82 pen KwgGeY http codepen io anri82 pen KwgGeY Code d
从 CompletableFuture.allof() 获取单独的结果

我有一个类它使用 CompletableFutures 向两个依赖服务发出并发请求我的代码如下所示 Builder Slf4j public class TestClass NonNull private final ExecutorS
R 中分层样本的单向方差分析

我有一个包含三组 a b c 的分层样本这些样本是从较大的总体 N 中抽取的所有组都有 30 个观察值但它们在 N 中的比例不相等因此它们的采样权重不同我用surveyR 中的包来计算汇总统计数据和线性回归模型并且想知道如何计算

R 中分层样本的单向方差分析

R 中分层样本的单向方差分析 的相关文章

随机推荐

热门标签

R 中分层样本的单向方差分析的相关文章