如何从数据子集中随机抽取并在 R 中引导统计测试

2024-02-06

我有一个包含两个变量的数据集，我希望统计测试它们在引导循环中是否相关（即使用 Spearman 的等级校正cor.test(...)).

我的数据集中的大多数测量值都来自独立的样本单位（我们称之为植物单位），尽管有些测量值来自同一植物。为了处理伪复制问题，我希望多次引导统计测试，在每次测试运行中仅使用每个植物的一个测量值。因此，我需要编写一个引导循环，在执行相关性测试之前，为每个植物随机绘制一个测量值（然后重复此过程 99 次）。

我希望最终得到一个 csv 文件，其中包含 99 个测试中每个测试的 p 值、rho 和 S 统计量。

示例数据：

dput(df)

structure(list(Plant = c(1L, 2L, 3L, 4L, 5L, 6L, 6L, 7L, 8L, 
9L, 10L, 10L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L, 18L, 
19L, 20L, 21L), Length = c(170L, 232L, 123L, 190L, 112L, 207L, 
93L, 291L, 178L, 206L, 141L, 257L, 304L, 222L, 279L, 192L, 101L, 
253L, 176L, 278L, 311L, 129L, 191L, 205L, 226L), Count = c(7L, 
9L, 5L, 7L, 5L, 6L, 2L, 10L, 6L, 7L, 4L, 8L, 11L, 7L, 8L, 5L, 
5L, 9L, 7L, 6L, 9L, 4L, 5L, 7L, 6L)), .Names = c("Plant", "Length", 
"Count"), class = "data.frame", row.names = c(NA, -25L))


   Plant Length Count
1      1    170     7
2      2    232     9
3      3    123     5
4      4    190     7
5      5    112     5
6      6    207     6
7      6     93     2   
8      7    291    10  etc....

到目前为止，我已经整理了下面的代码，首先为由多行表示的每种植物随机绘制一行，并在运行统计测试之前将这些值与其余数据组合起来。然而，我现在正在努力整合引导功能（即boot() or bootstrap()) 运行统计测试并多次执行循环：

# 1. create dataframe without plants with >1 measurement/row (in this example plant 6,10 & 18 have multiple rows)
df_uniq = df[ ! df$Plant %in% c(6,10,18), ]

# 2. create data subsets for each plant with >1 measurement/row
dup1 = df[6:7,]
dup2 = df[11:13,] 
dup3 = df[21:22,]

# 3. randomly draw one row for each plant with multiple measurements
d1_draw = dup1[sample(nrow(dup1), 1), ]
d2_draw = dup2[sample(nrow(dup2), 1), ]
d3_draw = dup3[sample(nrow(dup3), 1), ]

# 4. merge df_uniq with randomly drawn rows for each plant with multiple measurements
df_merge = rbind(df_uniq, d1_draw, d2_draw, d3_draw)

# 5. Test whether the two variables (length & Count) are related and write results to file
cor_res <- cor.test(df_merge$Length, df_merge$Count, method= "spearman")
write.csv(matrix(c(cor_res$statistic, cor_res$p.value, cor_res$estimate)), row.names=c("statistic", "p.value", "rho"), "test_output.csv")

我确信有一种快速而优雅的方法来解决这个问题。任何帮助将不胜感激！非常感谢。

为什么首先提取唯一的行？如果只有一行，则对该植物进行一次采样将导致保留该行，但仍从具有多行的植物中随机采样。

所以你可以这样做：

set.seed(123)
library(plyr)
ddply(df, .(Plant), function(x) { y <- x[sample(nrow(x), 1) ,] })

#   Plant Length Count howmany
#1      1    170     7       1
#2      2    232     9       1
#3      3    123     5       1
#4      4    190     7       1
#5      5    112     5       1
#6      6    207     6       2
#7      7    291    10       1
#8      8    178     6       1
#9      9    206     7       1
#10    10    257     8       3
#11    11    222     7       1
#12    12    279     8       1
#13    13    192     5       1
#14    14    101     5       1
#15    15    253     9       1
#16    16    176     7       1
#17    17    278     6       1
#18    18    311     9       2
#19    19    191     5       1
#20    20    205     7       1
#21    21    226     6       1

和你的cor.test

# first create your own function:
myrandomcors <- function(P){
ss <- ddply(P, .(Plant), function(x) { y <- x[sample(nrow(x), 1) ,] })
cor_res <- cor.test(ss$Length, ss$Count, method= "spearman")
return(c(stat = cor_res$statistic, p = cor_res$p.value, est = cor_res$estimate))
}

# then repeat it 5 times...
answer <- do.call( rbind, replicate(5, myrandomcors(df), simplify=FALSE ) )

#    > answer
#       stat.S            p   est.rho
#[1,] 352.4557 4.275291e-05 0.7711327
#[2,] 461.2733 4.060286e-04 0.7004719
#[3,] 340.2024 3.159626e-05 0.7790893
#[4,] 368.3967 6.227648e-05 0.7607814
#[5,] 342.4391 3.341956e-05 0.7776369

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从数据子集中随机抽取并在 R 中引导统计测试的相关文章

R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
在 R 传单中添加不透明度滑块

如何在 R leaflet 应用程序中添加滑块来控制特定图层的不透明度对于这个应用程序我不想使用闪亮这里建议在 R 传单应用程序中添加滑块 https stackoverflow com questions 37682619 add
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
purrr::可能函数可能无法与map2_chr函数一起使用

我怀疑这是 purrr 包中的错误但想先在 StackOverflow 中检查我的逻辑在我看来 possibly功能在内部不起作用map2 chr功能我正在使用 purrr 版本 0 2 5 考虑这个例子 library dplyr
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
dplyr：连接中的 NSE (by)

我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表问题是我无法为 by 提供正确的值我想我现在已经找到了解决方案但感觉我正在以一种额外复杂的方式来做因此如果您知道更简单更优雅的解决方案请告诉我这就是
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的

随机推荐

后台工作者从不同的类更新（最好通过事件）

我的 GUI 类中有一个后台工作者 private void bw DoWork object sender DoWorkEventArgs e ProgressClass obj new ProgressClass Importer tr
我们是否应该直接在 asp net mvc 视图中执行 LINQ

浏览我们正在开发的项目 ASP MVC 3 0 我在我的一个 ASPX 视图中看到了这部分代码 var groups Model GroupBy t gt new t OrganizationUnitName t OrganizationU
logging.error() 被调用了多少次？

也许它根本不存在因为我找不到它但是使用 python 的日志记录包有没有办法查询记录器以找出特定函数被调用的次数例如报告了多少错误警告日志记录模块似乎不支持此功能从长远来看您可能最好创建一个新模块并通过对现有日志记录模块
如何发布和订阅非 Mongodb 的数据？

Meteor publish 设置执行一些异步请求例如 API 然后返回要在 React 组件中显示的数据的过程是什么发布是如何工作的以及客户端代码如何访问它如果可能的话我想用 withTracker 函数来做到这一点谢谢本指南
如何将标签或按钮恰好放置在表单的中间？

我找不到将标签或按钮精确放置在表单中间的工具或属性例如在 X 轴上对比 2015 年 Design time 在我的 VisualStudio2010 中我有这 2 个按钮用于水平和垂直居中它位于工具栏布局中如果没有您可以
WebView，将本地 .CSS 文件添加到 HTML 页面？

在 android 中我使用 WebView 来显示我使用 Apache 的 HttpClient 从互联网获取的网页的一部分为了只从 html 中获取我想要的部分我使用 Jsoup String htmlString EntityU
Python 是否存在与素数相关的函数库？

我刚刚实施了米勒拉宾测试 http en wikipedia org wiki Miller E2 80 93Rabin primality test以及一个用于分解数字的简单函数两者都可以做得更好至少米勒拉宾测试是众所周知的那么
如何在 Visual Studio 2015 中使用 clang 编译适用于 Windows 的 C++

据我了解 Visual Studio 2015 附带了 clang 首先我以为这仅适用于 Android 和 iOS 应用程序但根据本文 http blogs msdn com b vcblog archive 2015 05 01 b
对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？

在 python 3 7 中我有这个 numpy 数组其形状 2 34900 该数组是一个坐标列表其中索引 0 表示 X 轴索引 1 表示 y 轴当我使用 seaborn kde plot 来可视化该数据的分布时在 i5 第七代
是否可以创建一个 DateFormatter 将两位数年份转换为四位数年份？

在我的 Java 应用程序中我使用DateFormat解析日期输入的实例 DateFormat fmt fmt DateFormat getDateInstance DateFormat DEFAULT dd MM yyyy for de
谷歌地图地理编码器返回状态

我正在使用谷歌地图地理编码器对邮政编码进行地理编码我希望它返回邮政编码所在的状态并将其存储在变量 local 中我收到一条错误消息表明 local 未定义为什么参见下面的代码 var address document getEle
定义读写操作符 [ ]

在 The C Programming Language 一书中作者给出了以下示例以及几条语句定义一个用于读取和写入的运算符例如是很困难的因为简单地返回引用并让用户决定如何处理它是不可接受的 cref 是帮助实现一个区分读和写的下
使用 .replaceWith 删除
标签但将内容保留在标签内？

我有一个表格单元格其中包含包含在内的内容 p tags td class address td p p Content goes here p 我想要 p 标签被删除所以它看起来像这样 td class address Content
MSysObjects 错误没有读取权限

我正在尝试通过以下方式连接到 MS Access 数据库 mdb OleDb 我的查询是 SELECT FROM ListQueries 这让我犯了错误 SQL 执行错误执行的 SQL 语句 SELECT FROM ListQueries
javascript中获取小数点后的值

我有一个 JavaScript 号码 12 1542 我想要这个字符串中的新字符串 12 1542 60 我怎么才能得到它谢谢你可以使用模运算符 https developer mozilla org en JavaScript Ref
SDK.DIR丢失？安卓更新项目？

当我这样做时我收到此错误 ant release sdk dir is missing Make sure to generate local properties using android update project or to i
jsTree - 渲染优化|具有 2000 个节点的超长渲染

我正在使用 jsTree 1 0 rc3 以及通过 AJAX 加载数据的选项并且在通过它加载大约 2000 个子节点时遇到问题虽然服务器会在几秒钟内响应但 jsTree 仅需要大约 40 秒才能在浏览器 chrome FF 中呈现结果
使用Python下载Kaggle数据集

我已经尝试下载kaggle dataset通过使用Python 但是我在使用时遇到了问题request方法和下载的输出 csv 文件是损坏的 html 文件 import requests The direct link to the Ka
Java 生成 RSA 密钥对并转换为 PEM - 但 OpenSSL 函数 PEM_read_bio_RSA_PUBKEY 返回 null

我使用以下代码生成 RSA 密钥对并将其转换为 PEM 但是当我使用OpenSSL功能时PEM read bio RSA PUBKEY是返回null Java代码 public static RSAKeyPair creatKeyPair
如何从数据子集中随机抽取并在 R 中引导统计测试

我有一个包含两个变量的数据集我希望统计测试它们在引导循环中是否相关即使用 Spearman 的等级校正cor test 我的数据集中的大多数测量值都来自独立的样本单位我们称之为植物单位尽管有些测量值来自同一植物为了处理伪复制问题

如何从数据子集中随机抽取并在 R 中引导统计测试

如何从数据子集中随机抽取并在 R 中引导统计测试 的相关文章

随机推荐

热门标签

如何从数据子集中随机抽取并在 R 中引导统计测试的相关文章