如何将data.table按多列连续分组

2024-04-26

我想获取一堆由数百个分组变量分组的描述性统计数据。我知道从如何按多列对data.table进行分组？ https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns如果我想要分组变量组合的统计数据，我可以在分组参数中使用 list( ) 。就我而言，我想要 Y 每个级别的平均值而不是 Z 每个级别的平均值

    # example data
    set.seed(007) 
    DF <- data.frame(X=1:50000, Y=sample(c(0,1), 50000, TRUE), Z=sample(0:5, 50000, TRUE))

    library(data.table)
    DT <- data.table(DF)

    # I tried this - but this gives the mean for each combination of Y and Z
    DT[, mean(X), by=list(Y, Z)]

    # so does this
    DT[, mean(X), by=c("Y", "Z")]

    # This works but.... 
    out <- lapply( c( "Y","Z") , FUN= function(K){ DT[, mean(X), by=get(K)]})
    out <- do.call( rbind, out )
   #...but it is really slow.

我有 1 亿条记录和 400 多个分组变量，所以需要一些东西 - 有点高效。 lapply 选项会增加几天的额外处理时间

options( digits=15 )
start.time <- Sys.time()
out <- lapply( c( "Y","Z") , FUN= function(K){ DT[, mean(X), by=get(K)]})
end.time <- Sys.time()
time.taken <- end.time - start.time

start.time <- Sys.time()
DT[, mean(X), by=c("Y")]
DT[, mean(X), by=c("Z")]
end.time <- Sys.time()
time.taken2 <- end.time - start.time
time.taken - time.taken2

随着开发版本1.10.5，data.table已获得分组设置聚合函数它计算不同级别分组的总计，产生多个（小）总计。

library(data.table)
# data.table 1.10.5 IN DEVELOPMENT built 2018-01-31 02:23:45 UTC

grp_vars <- setdiff(names(DF), "X")
groupingsets(setDT(DF), mean(X), by = grp_vars, sets = as.list(grp_vars))

    Y  Z       V1
1:  1 NA 24960.98
2:  0 NA 25039.96
3: NA  5 24652.44
4: NA  0 25006.61
5: NA  2 25223.83
6: NA  3 24959.26
7: NA  1 25095.58
8: NA  4 25068.84

基准

# create data
n_rows = 1e6L
n_vars = 5
n_grps = 1e2L
set.seed(007) 
DT <- data.table(rn = seq_len(n_rows))
for (i in seq_len(n_vars)) set(DT, , paste0("X", i), i*rnorm(n_rows))
for (i in seq_len(n_grps)) set(DT, , paste0("Z", i), sample(0:i, n_rows, TRUE))

grps <- grep("^Z", names(DT), value = TRUE)
vars <- grep("^X", names(DT), value = TRUE)

# run benchmark
bm <- microbenchmark::microbenchmark(
  gs = {
    groupingsets(DT, lapply(.SD, mean), by = grps, sets = as.list(grps), .SDcols = vars)
  },
  lapply1 = {
    rbindlist(lapply(grps, function(K) DT[, lapply(.SD, mean), by = K, .SDcols = vars]), 
                fill = TRUE)
  },
  lapply2 = {
    out <- lapply(grps, function(K) DT[, lapply(.SD, mean), by = get(K), .SDcols = vars])
    do.call(rbind, out)
  },
  times = 3L
)
print(bm)

即使有 1 M 行和 100 个分组变量，也有no运行时间的显着差异（groupingsets()似乎比其他两种方法慢一点）：

Unit: seconds
    expr      min       lq     mean   median       uq      max neval
      gs 3.602689 3.606646 3.608343 3.610603 3.611169 3.611735     3
 lapply1 3.524957 3.546060 3.561130 3.567163 3.579217 3.591270     3
 lapply2 3.562424 3.569284 3.577199 3.576144 3.584586 3.593027     3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

如何将data.table按多列连续分组的相关文章

将值添加到 rCharts hPlot 工具提示

我想通过 rCharts 向标准 Highcharts 工具提示添加一些额外的值示例代码 require rCharts df lt data frame x c 1 5 y c 5 1 z c A B C D E name c K L
dplyr ：过滤一系列行（在一列中）

虚拟数据框 id family lt c 1 1 2 2 3 3 people lt c male female male female male children dataset lt data frame id family peopl
更改列的顺序

我正在处理一个包含 gt 40 列的大型数据框我希望能够移动列而不必指定所有列名称例如 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 Labels lt c Cat D
如何对给定列和方向的数据表进行排序？

我需要在内存中使用基于来自 GridView 的列和方向的 DataTable 该函数需要如下所示 public static DataTable resort DataTable dt string colName string dire
使用facet时ggplot2控制每行的面板数量？

Is it possible to control the number of panels per row in a ggplot I can only get an equal number of panels on each row
geom_密度匹配geom_histogram binwitdh

我想在 ggplot2 中的分布条形图上添加一条线以显示平均分布但遇到了麻烦像这样的 ggplot 调用 ggplot x aes date received geom histogram aes y count binwidth 30
为什么 rbind 会抛出警告

这与是否有更优雅的方法将不规则的数据转换为整洁的数据框 https stackoverflow com questions 25102617 are there more elegant ways to transform ragged d
left_join 表示列不存在，即使它存在

我想用两个不同的变量 tp join 连接两个数据框出现错误表示无法在第二个数据帧中找到变量但是当我运行函数 colnames 时会显示列名称为什么会这样呢 df new lt left join master settlemen
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
R 的 dplyr 切片中的奇怪行为

打电话时slice df i 在 R 的 dplyr 包中如果我要求的行索引不存在 nrows lt i 它似乎返回除组中的第一行之外的所有行就像我调用的那样slice df 1 例如 library dplyr c1 lt c a b
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
创建后修改 ggplot 对象

有没有首选的修改方式ggplot创建后的对象例如我建议我的学生将 r 对象与 pdf 文件一起保存以供以后更改 library ggplot2 graph lt ggplot mtcars aes x mpg y qsec fill c
如何使用 tidyr 将向量中字符串中的每个字符分隔到一列中

我想将向量中的每个字符串分成列但我做不到 library tidyr library dplyr df lt data frame x c abe bas dds eer df gt separate x c A B C sep 1 我想
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
如何在r中进行左连接[重复]

这个问题在这里已经有答案了我有两个数据集一和二数据集一 a b c 111 a 1 112 b 2 113 c 3 114 d 4 115 e 5 数据集二 e d g 222 ss 11 111 ff 22 113 ww 33 114
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and

随机推荐

Windows 7 跳转列表（Windows 窗体、C#）

有谁知道如何在 C 中自定义与我自己的应用程序相关的 Windows 跳转列表功能我知道可以做到但我在 MSDN 上找不到任何与 C Windows7 相关的内容到目前为止我能找到的与 W7 和 C 相关的唯一信息只是我已经阅读过的
使用一个或多个标准 FIFO 队列实现延迟队列 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 延迟队列是一种队列其中每条消息都有
二维数组，在 C 中使用 calloc

我正在尝试创建一个二维字符数组来存储字符行例如 lines 0 Hello lines 1 Your Back lines 2 Bye 由于行必须是动态的因为我一开始不知道需要多少行这是我的代码 int i char lines ch
Android：多个活动和手动切换视图哪个更好？

我已经开发了一些 Android 应用程序但这个问题始终存在我应该如何构建我的用户界面我应该在活动之后启动活动并让手机按下后退按钮还是应该选择更优化但实现起来更复杂的方式手动切换视图然后手动执行后退按钮功能您认为或知道
如何在几年前拟合的逻辑回归中使用 R 中的预测函数？

我有一个问题正在尝试解决但没有成功寻找了两天多却没有得到任何线索很抱歉如果答案就在那里但我没有找到假设您有一个来自几年前估计的旧模型的逻辑方程回归二元模型因此您知道参数 k k 1 2 p 因为它们是过去估计的但您没有
MySQL 错误：#1142 - SELECT 命令被拒绝给用户

我在一台服务器上的某个查询时遇到问题在我测试过的所有其他地方它工作得很好但在我想使用它的服务器上它不起作用这是关于以下 SQL SELECT facturen id AS fid projecten id AS pid titel
跨命名空间共享秘密

有没有办法在 Kubernetes 中跨命名空间共享秘密我的用例是我的所有命名空间都有相同的私有注册表并且我想避免为每个命名空间创建相同的秘密秘密 API 对象驻留在命名空间中它们只能由同一命名空间中的 pod 引用基本上您必
限制在指定时间访问互联网

我正在尝试做一个家长控制软件项目我阻止了特定网站并使用主机文件取消阻止它们后来我尝试通过以编程方式禁用和启用 LAN 连接来禁用启用互联网访问 C 有没有办法在特定时间阻止互联网访问例如8 January 2013之间20 00
USB 端口速度 Linux [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何以编程方式确定运行 Linux 内核的嵌入式设备中的 USB 端口速度你可以阅读 sys bus usb devices usb s
Trait 方法可以实现返回引用或拥有的值

我正在尝试使用可以实现返回引用或拥有值的方法来定义特征就像是 struct Type trait Trait type Value fn f self gt Self Value impl Trait for type Value Typ
有没有办法让 webkit 的 javascript 正确处理空格？

事实证明在处理 XSLT 时 webkit 对于空格的处理似乎并不是特别好它似乎对换行符回车符制表符和空格一视同仁甚至到了这样的地步 substring after test string 10 将返回string 有什么方法可以
如何获取源（kendo ui 小部件的发送者元素

如何获取 kendoui datepicker 小部件的调用者发送者或者任何与此相关的小部件
SQLAlchemy Join 从多个表中检索数据

我正在尝试从多个表中检索数据SQL炼金术使用 join 方法当我运行查询时我希望得到一个对象该对象包含来自不同表的所有数据以便我可以使用a 区域名称等等在哪里区域名称位于其中一张连接的表上下面是我正在运行的查询和表布局如果有人能
使用反射实例化泛型类[重复]

这个问题在这里已经有答案了 NOTE I don t believe this question is a duplicate of the one linked above as I explain in the UPDATE below
Mono WebClient 编码问题

我正在尝试移植 NET应用程序从 Windows 到 Mono 但某些在 Windows 上运行的代码不再运行正如预期的那样 on mono WebClient client new WebClient Console WriteLine
用于网站的 Git / 接收后 / 测试站点和生产站点的分离

我使用 Git 来管理网站的源代码和部署目前测试站点和实时站点在同一个机器上运行关注此资源http toroid org ams git website howto http toroid org ams git website how
我们绝对需要 STS 来实现 SAML 吗？

我第一次尝试实现支持 SAML 的 SOAP 服务并且对 SAML 实现中安全令牌服务 STS 的作用有一些概念性问题用户 gt Web 应用程序 SOAP SAML gt 消息传递应用程序基本上该场景是用户使用其用户名和密码登录到
如何获取内存中缓冲区的文件描述符？

如果我有一个包含文件数据的缓冲区如何从中获取文件描述符这是一个源自于的问题如何解压内存中的文件 https stackoverflow com questions 1553653 how to untar file in memory
jquery val() 不工作

jQuery val 不起作用这是简单的脚本 com form submit function var name nama val var komentar komentar val alert Hi name this is your
如何将data.table按多列连续分组

我想获取一堆由数百个分组变量分组的描述性统计数据我知道从如何按多列对data table进行分组 https stackoverflow com questions 12478943 how to group data table by

如何将data.table按多列连续分组

基准

如何将data.table按多列连续分组 的相关文章

随机推荐

热门标签

如何将data.table按多列连续分组的相关文章