在具有重复观察的行之间生成精确加权平均值

2024-06-08

我有一个类似于下面生成的数据框。有些人对某一特定变量有多个观察值，并且每个变量都有一个相关的估计标准误差 (SE)。我想创建一个新的数据框，其中每个人仅包含一行。对于具有多个观察值的个人（例如 Kim 或 Bob），我需要根据估计值的标准误差以及新计算的加权平均值的方差来计算精确加权平均值。例如，对于 Bob，对于 var1，这意味着我希望他在新数据帧中的 var1 值是：

weighted.mean(c(example$var1[2], example$var1[10]), 
   c(1/example$SE1[2], 1/example$SE1[10]))

对于 Bob 的新 SE1，即加权平均值的方差，为：

1/sum(1/example$SE1[2] + 1/example$SE1[10])

我尝试使用聚合函数并且能够计算值的算术平均值，但是我编写的简单函数不使用标准错误，也不能处理 NA。

aggregate(example[,1:4], by = list(example[,5]), mean)

如果您能帮助开发一些代码来解决这个问题，我们将不胜感激。这是示例数据集。

set.seed(1562)
example=data.frame(rnorm(10,8,2))
colnames(example)[1]=("var1")
example$SE1=rnorm(10,2,1)
example$var2=rnorm(10,8,2)
example$SE2=rnorm(10,2,1)
example$id= 
  c ("Kim","Bob","Joe","Sam","Kim","Kim","Joe","Sara","Jeff","Bob")
example$SE1[5]=NA
example$var1[5]=NA
example$SE2[10]=NA
example$var2[10]=NA
example

       var1      SE1      var2        SE2   id
1   9.777769 2.451406  6.363250  2.2739566  Kim
2   8.753078 2.174308  6.219770  1.4978380  Bob
3   7.977356 2.107739  6.835998  2.1647437  Joe
4  11.113048 2.713242 11.091650  1.7018666  Sam
5         NA       NA 11.769884 -0.1310218  Kim
6   5.271308 1.831475  6.818854  3.0294338  Kim
7   7.770062 2.094850  6.387607  0.2272348  Joe
8   9.837612 1.956486  8.517445  3.5126378 Sara
9   4.637518 2.516896  7.173460  2.0292454 Jeff
10  9.004425 1.592312        NA         NA  Bob

我喜欢plyr解决此类问题的包。它在功能上应该等同于aggregate，但我觉得用起来很好，也很方便。在 plyr 上有很多例子和大约 20 页的精彩介绍website http://plyr.had.co.nz/。对于这个问题，由于数据以 data.frame 开头，并且您希望另一端有另一个 data.frame，因此我们使用ddply()

library(plyr)
#f1()
ddply(example, "id", summarize, 
      newMean = weighted.mean(x=var1, 1/SE1, na.rm = TRUE),
      newSE = 1/sum(1/SE1, na.rm = TRUE)
      )

    id newmean   newSE
1  Bob  8.8982 0.91917
2 Jeff  4.6375 2.51690
3  Joe  7.8734 1.05064
4  Kim  7.1984 1.04829
5  Sam 11.1130 2.71324
6 Sara  9.8376 1.95649

还请查看?summarize and ?transform一些其他好的背景。您还可以将匿名函数传递给plyr如果需要更复杂的任务，可以使用函数。

Or use data.table事实证明，对于某些任务来说，该包可以更快：

library(data.table)
dt <- data.table(example, key="id")
#f2()
dt[, list(newMean = weighted.mean(var1, 1/SE1, na.rm = TRUE),
          newSE = 1/sum(1/SE1, na.rm = TRUE)),
   by = "id"]

快速基准测试：

library(rbenchmark)
#f1 = plyr, #f2 = data.table
benchmark(f1(), f2(), 
          replications = 1000,
          order = "elapsed",
          columns = c("test", "elapsed", "relative"))

      test elapsed relative
    2 f2()   3.580   1.0000
    1 f1()   6.398   1.7872

So data.table()在我的简单笔记本电脑上，此数据集的速度提高了约 1.8 倍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在具有重复观察的行之间生成精确加权平均值的相关文章

保存/加载 data.table 的最快方法

我想做的实际上是使用最快的可用方法来存储data table以便进一步处理大致如下从 CSV RDS 读取原始数据将其转换为data table 将其保存为针对重新读取而优化的格式 RDS 似乎不适用于data table 是对的吗
将值添加到 R 中 for 循环内的向量

我刚刚开始学习 R 我编写了这段代码来学习函数和循环 squared lt function x m lt c for i in 1 x y lt i i c m y return m squared 5 NULL 为什么这个返回NULL
在闪亮仪表板中显示/隐藏菜单项

当进入应用程序时我需要隐藏一个菜单项当用户选择某个值时菜单项必须出现我努力了shinyjs功能hidden 并且它隐藏了一个 menuItem 但是当使用show or toggle 菜单项不会出现我发现了Rshinydashbo
在 R 中使用两个 for 循环创建矩阵/数据框

这是我在 SO 上的第一篇文章所以请友善我的问题与这个问题隐约相关 R中的双for循环创建矩阵 https stackoverflow com questions 44376020 double for loop in r creati
ggplot2 的组合图（不在单个图中），使用 par() 或 layout() 函数？ [复制]

这个问题在这里已经有答案了我一直在考虑使用 par 或 layout 函数来组合 ggplots 可以使用这些功能吗假设我想绘制 ggplot 散点图和 ggplot 直方图我想将这两个地块合并起来而不是在一个地块中是否适用我在
将线条剪裁到绘图区域并在绘图区域外显示文本

我想限制绘图的可见 y 范围为了保留超出此范围的值我需要设置oob 出界 to rescale none这效果很好不过我还想在图外的页边空白处添加一些文本为了做到这一点我需要关闭剪辑这会导致超出范围的值被绘制在绘图区域之外的边
在 R/ggplot2 中将字符串转换为函数参数的最佳方法？ [复制]

这个问题在这里已经有答案了我正在开发一个闪亮的应用程序用户可以选择可以使用 ggplot2 绘制哪些变量但是我完全不确定将字符串即要绘制的变量的名称转换为合适的函数参数的最佳方法考虑以下非常人为的有效的示例 df lt dat
删除 R 中的胡须和异常值

我有连续的数据我想用它来绘制R s plotly with a box or violin没有异常值和胡须的绘图 set seed 1 df lt data frame group c rep g1 500 rep g2 700 rep
corr.test 与 cor.test p 值

我正在尝试使用 psych 包 psych 1 6 9 中的 corr test 但在使用 method spearman 时它似乎给出了与 cor test 不同的 p 值相关系数相同但 p 值不同我整理了一些示例代码和输出如下
使用 dplyr 和 ggplot 绘制包括负值的多面水平发散堆积条形图

我希望这个例子能够让人清楚我想要堆叠条形其中中间条形跨越 0 因为它代表中性值这与李克特量表一起使用为了重现性我使用钻石数据集以下示例与我的用例足够接近并演示了我很难以正确的顺序获取好或正数据因此中性最接近 0 这是
Sweave 缓存包

我正在尝试编写一份报告我的问题是每次我编译 R 时都会加载我在报告中使用的包如 ggplot2 MASS cubature 这是非常耗时的有没有办法查包裹 I found 缓存编织但它不起作用这是我在 sweave 文件中添加的块
R 包“raster”在搜索“terra”最新版本时无法上传

我正在 Windows 10 中使用 RStudio 2021 09 2 中的 R 4 1 2 工作我正在处理空间数据包括矢量和栅格但三天前命令库栅格开始向我发出此警告错误 loadNamespace i c lib loc l
在 R 绘图上使用鼠标书写？

我使用创建了散点图plot R 中的函数有没有可能在这个图上画图我想添加一条直线并获取它的参数但在我看来abline 可能会很不方便我想画很多条线然后选择一条最合适的我怎样才能完成这个任务看看 RStudio 和这个例子 li
如何在 ggplot2 中向 x 轴添加特定值？

我正在尝试在 ggplot2 中绘制图表我希望 x 轴显示 2 84 以及下面键入的序列除了在 Breaks 中输入所有精确值之外还有其他方法吗我尝试了谷歌但它没有解决我的问题 scale x continuous limits
将一个大的 xlsx 文件导入到 R 中？

我想知道是否有人知道从大 xlsx 文件 20Mb 导入数据的方法我尝试使用 xlsx 和 XLConnect 库不幸的是两者都使用 rJava 我总是收到相同的错误 gt library XLConnect gt wb lt lo
整理包中的字段说明

我很抱歉因为我知道这个答案可能出现在编写 R 包的手册中但在我阅读和查看其他包的整理字段时我无法 100 弄清楚该字段的用途用简单的语言我的是英语来看包的描述文件中的整理字段有什么作用人们想在那里放什么我认为这来自于某个时
R/ggplot2：如何匹配重叠区域图中的图例和绘图颜色？

我有两个面积图称为蓝色和绿色其中green大部分是在blue情节但在极少数点上它高于blue阴谋我想使用透明度说alpha 0 2对于两者并且还能够为每个指定颜色我现在的问题是自从green情节主要是在blue地块其
生成与现有变量具有预定义相关性的二进制变量

对于模拟研究我想生成一组随机变量连续变量和二元变量这些变量与已经存在的变量具有预定义的关联binary变量此处表示为x 对于这篇文章假设x是按照下面的代码生成的但请记住在现实生活中 x是一个已经存在的变量 set seed 1
R 中的微秒时间戳

在 CSV 文件中我有几列其中一列有时间戳其中每个时间戳是今天午夜经过的微秒每个 csv 文件仅包含一天内的数据因此这并不含糊我的问题是如何将这些微秒时间戳解析为 R 多谢我的 CSV 文件的一部分 34201881666
用于检查和批量线性模型的数据表选项

我想知道是否有data table用于从数据集中批量处理线性模型并首先进行检查的选项我需要对每个唯一标识符运行一堆线性模型但首先我需要进行检查对于每个唯一的 id 和年份我需要检查是否有至少 24 个月的先前每月数据但不超过 60

随机推荐

删除 nullptr - 性能开销？

运算符delete 检查自身指针是否为nullptr 在不亲自检查的情况下对 nullptr 调用 delete 是否会产生性能开销 delete ptr or if ptr nullptr delete ptr 如果 ptr 为 null
为什么我们需要 Redis 来运行 CKAN？

我想知道为什么我们需要 Redis 服务器来运行 CKAN 如果需要为什么我如何使用 CKAN 配置它附注我正在 RHEL7 中运行我的 ckan 实例 Update Redis 已成为一项要求从CKAN 2 7开始 https d
按名称前缀对文件进行分组，然后使用 PowerShell 归档 (zip) 每个组

我有以下情况我的目录中有大量文件名称如下 dynamicname timestamp xml 我想按对文件进行分组然后将分组的文件压缩到以该组的命名的存档中在这种情况下文件名和时间戳并不重要只重要前六位数字我是 Power
编写 powerset 代码时遇到的问题

我正在尝试生成一个集合的幂集并且编写了这段代码问题是当用户输入集合中两个相似的成员时它无法正常工作我能做些什么这是我的代码 include
检查 Redis 列表中是否已存在某个值

我想知道是否有办法检查 redis 列表中是否已存在某个键我无法使用集合因为我不想强制唯一性但我确实希望能够检查字符串是否确实存在 Thanks 您的选择如下 Using LREM如果发现则更换它维护一个单独的SET与您的LIST
JDBC set_approle

我正在尝试使用prepareCall 通过 JDBC 连接设置应用程序角色它似乎工作正常即语法方面但 SQL Server 2008 返回此错误 Application roles can only be activated at t
从字符串数组中删除项目

我有一个包含如下数据的数据库字段 76 60 12 例如如果我想删除60 我该怎么办要删除的号码可以是任何地方如果需要的话我还需要删除逗号我正在使用 NET 2 0 我会用逗号分割字符串删除元素然后再次连接字符串希望这一切都
Flutter：处理错误 Dio Package（404,400 等）

我正在学习通过包的 ID 搜索数据DIO https pub dev packages dio https pub dev packages dio 我的问题是每次我输入错误的关键字搜索时应用程序都会突然崩溃并显示调试消息404 未找到
我应该如何提取java中的压缩文件夹？

我正在使用以下代码在 Java 中提取 zip 文件 import java io import java util zip class testZipFiles public static void main String args tr
如何在不使用 Mock 的情况下对 Python 方法进行存根

我是一名 C 开发人员正在转向一些 Python 领域所以我还不知道自己在做什么我读到你并不真正需要 Python 的依赖注入有人告诉我您可以在代码中实例化对象并让它们按照您想要的方式运行但是您可以将这些对象上的方法指向我在测
为什么 BLE 4.2 比 BLE 4.1 更快

我已阅读技术规范并试图了解为什么 BLE 4 2 比 BLE 4 1 更快我们能否发送大于 20 字节的数据包或者连接间隔是否更快我试图了解是什么让 BLE 4 2 更快与早期相比蓝牙 4 2 中唯一提供更高吞吐量的是链路层的长
如何在 Golang 中设置 HTML

在具有重复观察的行之间生成精确加权平均值

在具有重复观察的行之间生成精确加权平均值 的相关文章

随机推荐

在具有重复观察的行之间生成精确加权平均值的相关文章