通过查找按组快速 data.table 分配多列

2024-04-15

我一直在寻找规范的方法来完成我正在尝试的事情，但我似乎不太幸运地获得快速而优雅的工作。简而言之，我有一个包含多个值列的大表，并且希望将每个值乘以查找表中的相应因子。我不知道如何动态传递我想要乘以查找值的列，或者如何在基本表达式之外引用查找值。

这是我的示例，我将其设置为 300 万行和 10 个值列，这不会花费太长时间，并且在某种程度上代表了数据大小（这将作为更大循环的一部分来实现，因此强调关于性能）。还有一个包含 6 个级别的查找表以及一些用于 value_1:value_10 列的分类乘数。

library(data.table)

setsize <- 3000000
value_num <- 10
factors <- c("factor_a", "factor_b", "factor_c", "factor_d", "factor_e", "factor_f")
random <- data.table(replicate(10, sample(factors, size = setsize,  replace = T))
                     , replicate(10, rnorm(setsize, mean = 700, sd = 50)))
lookup <- data.table("V1" = factors, replicate(10, seq(.90, 1.5, length.out = length(factors))))
wps <- paste("value", c(1:10), sep = "_")
names(random)[11:20] <- wps
names(lookup)[2:11] <- wps
setkeyv(random, "V1")
setkeyv(lookup, "V1")

解决方案 1：速度相当快，但我不知道如何通用地引用 i 列，例如i.value_1所以我可以将它们传递到一个循环中，或者更好的是一次性应用它们。

f <- function() {
  random[lookup, value_1 := value_1 * i.value_1, by = .EACHI]
  random[lookup, value_2 := value_2 * i.value_2, by = .EACHI]
  random[lookup, value_3 := value_3 * i.value_3, by = .EACHI]
  random[lookup, value_4 := value_4 * i.value_4, by = .EACHI]
  random[lookup, value_5 := value_5 * i.value_5, by = .EACHI]
  random[lookup, value_6 := value_6 * i.value_6, by = .EACHI]
  random[lookup, value_7 := value_7 * i.value_7, by = .EACHI]
  random[lookup, value_8 := value_8 * i.value_8, by = .EACHI]
  random[lookup, value_9 := value_9 * i.value_9, by = .EACHI]
  random[lookup, value_10 := value_10 * i.value_10, by = .EACHI]
}

system.time(f())

   user  system elapsed 
  0.184   0.000   0.181

解决方案 2：在我无法使解决方案 1 通用后，我尝试了set()基于的方法。然而，尽管允许我在字符向量中指定目标值列wps，实际上比上面慢很多。我知道我用错了它，但不确定如何改进它以消除所有 [.data.table 开销。

idx_groups <- random[,.(rowstart = min(.I), rowend = max(.I)), by = key(random)][lookup]
system.time(
for (i in 1:nrow(idx_groups)){
  rows <- idx_groups[["rowstart"]][i]:idx_groups[["rowend"]][i]
  for (j in wps) {
    set(random, i=rows, j=j, value= random[rows][[j]] * idx_groups[[j]][i])
  }  
})

   user  system elapsed 
  3.940   0.024   3.967

任何有关如何更好地构建这些操作的建议将不胜感激。

编辑：我对自己感到非常沮丧，因为在发布这个问题之前未能尝试这个明显的解决方案：

system.time(
for (col in wps){
  random[lookup, (col) := list(get(col) * get(paste0("i.", col))), by = .EACHI, with = F]
})

   user  system elapsed 
  1.600   0.048   1.652

这似乎以相对速度做我想做的事。然而它仍然比上面第一个解决方案慢 10 倍（我确信由于重复get()）所以我仍然愿意接受建议。

编辑2：替换get() with eval(parse(text=col))似乎已经成功了。

system.time(
for (col in wps){
  random[lookup, (col) := list(eval(parse(text=col)) * eval(parse(text=paste0("i.", col)))), by = .EACHI, with = F]
})
   user  system elapsed 
  0.184   0.000   0.185

编辑3：已经提供了几个很好的工作答案。 Rafael 的解决方案在一般情况下可能是最好的，尽管我会注意到，我可以从 Jangorecki 推荐的调用构造中多挤出几毫秒，以换取看起来相当吓人的辅助函数。我已将其标记为已回答，谢谢大家的帮助。

您还可以使用lapply:

cols <- noquote(paste0("value_",1:10))

random[lookup, (cols) := lapply (cols, function(x)  get(x) * get(paste0("i.", x))), by = .EACHI ]

如果您的数据集太大并且您想查看操作的进度条，您可以使用pblapply:

library(pbapply)

random[lookup, (cols) := pblapply(cols, function(x)  get(x) * get(paste0("i.", x))), by = .EACHI ]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

通过查找按组快速 data.table 分配多列的相关文章

为什么应该或不应该将数据集、数据表等存储为 ASP.NET 页面中的会话变量？

我正在开发一个使用 Web 服务返回的数据集的 Web 应用程序当应用程序运行时我将该数据集存储为会话变量以便在用户导航到将编辑数据集中的表的不同页面时反复使用这个想法是当应用程序加载时用户只需要等待一次数据然后应用程序将使用
如果 RCurl::getURL() 执行时间太长，如何停止执行？

有没有办法告诉 R 或 RCurl 包在超过指定时间段时放弃尝试下载网页并转到下一行代码例如 gt library RCurl gt u http photos prnewswire com prnh 20110713 NY34814 b
如何修改反应链以便最后修改的对象控制其他链接的对象？

新注释 1 最终解决的代码发布在最底部反映了 ismirsehregal 于 2021 年 12 月 3 日的解决方案以及一些标记为 ADDED 和 MODIFIED 的小调整 ADD 是为了解决我在矩阵 2 添加值后从矩阵 1 中删除
如何使用 Rcpp 将 C 结构从 C 库公开到 R

我正在尝试将 C 结构从 C 库公开到 R 中例如 struct A int flag 库提供 API 来构造和销毁是很常见的A A initA void freeA A a 感谢RCPP MODULE 很容易暴露它而不考虑析构函数 in
R：igraph、社区检测、edge. Betweenness 方法、统计/列出每个社区的成员？

我有一个相对较大的图表其中顶点 524 边 1125 是现实世界的交易边是有向的并且具有权重包含是可选的我正在尝试调查图中的各个社区并且本质上需要一种方法计算所有可能的社区计算最佳社区数量返回每个最佳社区的成员成员数量
省略 RColorBrewer 调色板上较亮的颜色以在 ggplot2 中使用

我想在 RColorBrewer 的 Oranges 调色板中使用较深的颜色以便在我的 ggplot 条形图中使用然而我却做不到帮助下面是示例代码 my palette brewer pal n 9 Oranges 4 9 Bar
有没有一种明智的方法可以在 R 中执行诸如文档字符串之类的操作？

这不仅仅是一个编码风格问题如果您了解 python 我认为 Ruby 也有类似的东西您可以在函数中拥有文档字符串这样您就可以通过发出 help 命令轻松获取该字符串例如 def something t None Do somethi
使用 sprintf 打印换行符 - 有光泽

我试图在打印时进行换行这是我的代码 temp lt LETTERS 1 11 print sprintf Rank s s n 1 11 temp output 1 Rank 1 A n Rank 2 B n Rank 3 C n Ran
当我添加形状时，分组哑铃图变得不稳定

我有以下数据显示白人与黑人在各个领域的一致性百分比我想创建一个分组哑铃图其中国家值和州值彼此相邻以便于比较 Domain c A B C D E F G A B C D E F G A B C D E F G A B C D E F
如何在 R 中创建“堆叠瀑布”图表？

I was able to find several packages to create a waterfall chart in R which look like this But I could not find a way to
从因子转换时间/日期

我希望将时间从因子转换为日期对于示例数据框 date time lt structure list date structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L Label 02 02 2013 class fa
使用 R 进行语言相关排序

1 如何正确排序任务是根据英文字母对美国州名缩写进行排序但我注意到 R 根据某种操作系统语言或区域设置对列表进行排序例如在我的语言立陶宛语中甚至拉丁语非立陶宛语字母的顺序也与英语字母表中的顺序不同仅比较两个字母表中的非立
词云中的空格

我目前将 wordle 用于词云的许多艺术用途我认为 R 的词云可能具有更好的控制能力 1 如何在词云中保持单词大写解决了 2 如何将两个单词作为一个块保留在词云中 wordle 使用运算符来完成此操作 R 的词云仅按原样打印例如
从数据帧创建 sf 多边形

我有一个包含一组多边形坐标的数据框这就是我将其转换为spatialPolygons 包sp 的方法 my df lt data frame Plot c A A A A A B B B B B Corner c SW NW NE SE S
在 R 中运行 glmnet 包，出现错误“缺少 TRUE/FALSE 需要的值”，可能是由于缺少值？

我正在尝试使用glmnet来自glmnet运行 LASSO 回归的包我正在使用以下命令 library glmnet glmnet a b family binomial alpha 1 我收到错误 gt Error in if all
可以使用部分名称访问列表成员吗？这是一个功能吗？

考虑这个 R 代码 gt l list key 1 gt l k 1 1 gt l ke 1 1 gt l k NULL gt names l 1 key 这是否意味着您可以使用以下方式访问列表成员及其部分名称当我在一次令人沮丧的错误搜
使用条件求 R 中的累积和

我需要创建一个新变量其中包含每个 ID 过去三年金额的总和如果没有三年的数据则应显示 NA 举个例子 ID YEAR AMOUNT 1 2010 5 1 2011 2 1 2012 4 1 2013 1 1 2014 3 2 2013
将“dplyr::across”与具有多个参数的函数一起使用

我想知道是否有办法使用dplyr across一个需要多个参数的函数如果没有如何执行以下操作dplyr tidyverse library dplyr create a dataframe df lt structure list x1
从R中的序列中随机提取多个连续项

Frag lt seq 1 30000 K lt 9 P lt sample 1 K 1 sys sample lt Frag seq P length Frag K 现在 sys sample 包含 3333 个数字如何在R中随机提取1
使用 dplyr 创建 t.test 表？

假设我有如下所示的数据 set seed 031915 myDF lt data frame Name rep c A B times c 10 10 Group rep c treatment control treatment cont

随机推荐

摇动：发出是否需要重建任何东西的信号

我使用 shake 构建了一堆静态网页然后我必须使用 sftp 将其上传到远程主机目前 cronjob 运行 git pull get possibly updated sources my shake system lftp uplo
org.w3c.dom.Document 转换为字符串，无需 javax.xml.transform

我花了一段时间在 Google 上寻找一种将 org w3c dom Document 转换为整个 DOM 树的字符串表示形式的方法这样我就可以将对象保存到文件系统中然而我发现的所有解决方案都使用 javax xml transfor
KubernetesExternalName服务在DNS中不可见

我正在尝试将单个数据库实例公开为两个 Kubernetes 命名空间中的服务 Kubernetes 版本 1 11 3 在 Ubuntu 16 04 1 上运行数据库服务是可见的并且在默认命名空间中工作我在非默认命名空间中创建了一个Ex
打造 ecto 独一无二的领域

如何制作一个字段unique在体外我以为它和Ruby中的活动记录一样但似乎不是你想使用唯一约束 3 http hexdocs pm ecto Ecto Changeset html unique constraint 3 这与 Act
如果 MySQL 中的行不存在，则添加到该行

当向表中添加一行时但首先检查它是否存在哪种处理方法最有效是否是查询是否存在的情况如果不存在则插入或者重复使用或者简单地替换如果该行不存在这会起作用吗 Thanks 我认为这是 MySQL 中最快的方法 REPLACE int
不可变类型：公共最终字段与 getter

我需要一个小的容器类来存储一些应该不可变的字符串由于 String 本身是不可变类型所以我想到了类似的东西 public final class Immu public final String foo public final Str
从 airodump-ng 读取实时输出

当我执行命令 airodump ng mon0 gt gt output txt 时 output txt 为空我需要能够运行 airodump ng mon0 并在大约 5 秒后停止该命令然后才能访问其输出有什么想法我应该从哪里开始
如何以良好的格式结果格式化 python 列表

我有很多列表如下所示通过打印data并将其与字符串连接起来check str如下最后一条语句所示需要帮助以在字符串连接后更好地格式化列表值如预期所示 print data printing lists in this variabl
图像上的文本没有绝对位置

我正在尝试在页面中间的图像上放置一些文本我看到一个这样的例子 img src image png p p p p
在 docker 容器上保存配置

我创建了 2 个 docker 容器并尝试在 ubuntu debian 上安装一些应用程序和一些软件包如 mc ping traceroute 但每当我退出容器时我都会丢失其中的所有内容是否有任何 docker 命令可以保存我的配
从具有特定模式的 txt 文件创建 Pandas DataFrame

我需要基于以下结构的文本文件创建一个 Pandas DataFrame Alabama edit Auburn Auburn University 1 Florence University of North Alabama Jackson
.NET Framework 全局程序集缓存在哪里？

我安装了 VS2010 和 NET 4 0 然后编译了一个程序集并使用可用的 exe 运行 gacutil ProgramFiles Microsoft SDKs Windows v7 0A Bin NETFX 4 0 Tools 可执行文
如何在 R 中重新格式化表格？

我加载了一个这样的表 V1 V2 V3 pat1 1 2 pat1 3 1 pat1 4 2 pat2 3 3 pat3 1 4 pat3 2 3 我需要将其格式化为如下所示其中 V1 表示行 V2 表示列 V3 中的值 1 2 3 4
Android 中未接来电的广播接收器

有谁知道未接来电的意图是什么实际上我想在我的应用程序中发送有关未接来电和来电的短信您需要使用 ContentObserver public class MissedCallsContentObserver extends Conten
fork 后调试子进程（配置了 follow-fork-mode 子进程）

我正在开发一个应用程序父级分叉子级来处理某些任务我遇到一个问题我已将 gdb 配置为 follow fork mode 子级但在 fork 后到达断点后它发送 SIGTRAP 但子级以某种方式终止并向父级发送 SIGCHLD 我
数据表行切换选项

我的问题我正在开发一个与 DataTableJS 相关的项目我需要一个行分组功能它与分组行分开只是我想在下面的切换中显示相关的表行内容城市名我到底在寻找什么我的演示代码 document ready function var t
Swagger 无法生成 HTTP“PATCH”的文档

我已遵循以下内容博客条目 http kingsfleet blogspot co uk 2014 02 transparent patch support in jax rs 20 html http Transparent 20PATCH
在 htaccess 文件中使用公用文件夹时的多种语言

我有这个 htacces文件我很喜欢它但是如何向它添加多语言所以它明白localhost en 不是文件或文件夹现在它使用公共文件夹作为根所以localhost public 如果我想这样做那太好了我仍然使用公共文件夹作为根目
JetBrains（IntelliJ、PhpStorm、WebStorm ...）带有 SSH 密钥的私有 git 存储库

我的新 Web 服务器需要使用 RSA 2048 密钥进行身份验证因此我生成了一个密钥我将ir rsa and id rsa pub我的主文件夹中的文件 ssh Windows 10 但是当我使用 cvs 注释用于拉或推时我收到错
通过查找按组快速 data.table 分配多列

我一直在寻找规范的方法来完成我正在尝试的事情但我似乎不太幸运地获得快速而优雅的工作简而言之我有一个包含多个值列的大表并且希望将每个值乘以查找表中的相应因子我不知道如何动态传递我想要乘以查找值的列或者如何在基本表达式之外引用查找值

通过查找按组快速 data.table 分配多列

通过查找按组快速 data.table 分配多列 的相关文章

随机推荐

热门标签

通过查找按组快速 data.table 分配多列的相关文章