如何按组加速子集

2024-04-18

我曾经使用 dplyr 来实现数据整理，但有些计算速度“慢”。特别是按组的子集，我读到当有很多组并且基于时 dplyr 很慢这个基准 https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Groupingdata.table 可能会更快，所以我开始学习 data.table。

以下是如何重现接近我的真实数据（包含 25 万行和大约 23 万组）的方法。我想按 id1、id2 进行分组，并使用max(datetime)对于每个组。

Datas

# random datetime generation function by Dirk Eddelbuettel
# https://stackoverflow.com/questions/14720983/efficiently-generate-a-random-sample-of-times-and-dates-between-two-dates
rand.datetime <- function(N, st = "2012/01/01", et = "2015/08/05") {
  st <- as.POSIXct(as.Date(st))
  et <- as.POSIXct(as.Date(et))
  dt <- as.numeric(difftime(et,st,unit="sec"))
  ev <- sort(runif(N, 0, dt))
  rt <- st + ev
}

set.seed(42)
# Creating 230000 ids couples
ids <- data.frame(id1 = stringi::stri_rand_strings(23e4, 9, pattern = "[0-9]"), 
                  id2 = stringi::stri_rand_strings(23e4, 9, pattern = "[0-9]"))
# Repeating randomly the ids[1:2000, ] to create groups
ids <- rbind(ids, ids[sample(1:2000, 20000, replace = TRUE), ])
# Adding random datetime variable and dummy variables to reproduce real datas
datas <- transform(ids, 
                   datetime = rand.datetime(25e4), 
                   var1 = sample(LETTERS[1:6], 25e4, rep = TRUE), 
                   var2 = sample(c(1:10, NA), 25e4, rep = TRUE), 
                   var3 = sample(c(1:10, NA), 25e4, rep = TRUE), 
                   var4 = rand.datetime(25e4), 
                   var5 = rand.datetime(25e4))

datas.tbl <- tbl_df(datas)
datas.dt <- data.table(datas, key = c("id1", "id2"))

我找不到使用 data.table 按组进行子集化的直接方法，所以我问了这个问题：使用 data.table 按组过滤行 https://stackoverflow.com/questions/31827551/filter-rows-by-groups-with-data-table

我们建议我使用 .SD ：

datas.dt[, .SD[datetime == max(datetime)], by = c("id1", "id2")]

但我有两个问题，它适用于日期，但不适用于 POSIXct ("UseMethod("as.data.table") 中的错误：没有适用于“as.data.table”的方法应用于“c('POSIXct', 'POSIXt')”)类的对象，并且这非常慢。例如对于 Dates ：

> system.time({
+   datas.dt[, .SD[as.Date(datetime) == max(as.Date(datetime))], by = c("id1", "id2")]
+ })
 utilisateur     système      écoulé 
      207.03        0.00      207.48

因此，我找到了其他更快的方法来使用 data.table 实现此目的（并保持日期时间）：

功能

f.dplyr <- function(x) x %>% group_by(id1, id2) %>% filter(datetime == max(datetime))
f.dt.i <- function(x) x[x[, .I[datetime == max(datetime)], by = c("id1", "id2")]$V1]
f.dt <- function(x) x[x[, datetime == max(datetime), by = c("id1", "id2")]$V1]

但后来我认为 data.table 会快得多，与 dplyr 的时间差异并不显着。

微基准测试

mbm <- microbenchmark(
  dplyr = res1 <- f.dplyr(datas.tbl), 
  data.table.I = res2 <- f.dt.i(datas.dt), 
  data.table = res3 <- f.dt(datas.dt), 
  times = 50L)

Unit: seconds
         expr      min       lq     mean   median       uq      max neval
        dplyr 31.84249 32.24055 32.59046 32.61311 32.88703 33.54226    50
 data.table.I 30.02831 30.94621 31.19660 31.17820 31.42888 32.16521    50
   data.table 30.28923 30.84212 31.09749 31.04851 31.40432 31.96351    50

我是否遗漏/误用了 data.table 的某些内容？您有加快计算速度的想法吗？

任何帮助将不胜感激！谢谢

编辑：有关用于微基准测试的系统和软件包版本的一些精度。（计算机不是战争机器，12Go i5）

System

sessionInfo()
R version 3.1.3 (2015-03-09)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

locale:
  [1] LC_COLLATE=French_France.1252  LC_CTYPE=French_France.1252   
[3] LC_MONETARY=French_France.1252 LC_NUMERIC=C                  
[5] LC_TIME=French_France.1252    

attached base packages:
  [1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
  [1] readr_0.1.0          ggplot2_1.0.1        microbenchmark_1.4-2
[4] data.table_1.9.4     dplyr_0.4.1          plyr_1.8.2          

loaded via a namespace (and not attached):
  [1] assertthat_0.1   chron_2.3-45     colorspace_1.2-6 DBI_0.3.1       
[5] digest_0.6.8     grid_3.1.3       gtable_0.1.2     lazyeval_0.1.10 
[9] magrittr_1.5     MASS_7.3-39      munsell_0.4.2    parallel_3.1.3  
[13] proto_0.3-10     Rcpp_0.11.5      reshape2_1.4.1   scales_0.2.4    
[17] stringi_0.4-1    stringr_0.6.2    tools_3.1.3 

> packageVersion("data.table")
[1] ‘1.9.4’
> packageVersion("dplyr")
[1] ‘0.4.1’

好问题！

我假设df and dt作为易于/快速输入的对象名称。

df = datas.tbl
dt = datas.dt

比较于-O3等级优化：

首先，这是我的系统在当前 CRAN 版本上的计时dplyr和开发版本data.table。开发版本dplyr似乎出现了性能下降（Romain 正在修复）。

system.time(df %>% group_by(id1, id2) %>% filter(datetime == max(datetime)))
#  25.291   0.128  25.610 

system.time(dt[dt[, .I[datetime == max(datetime)], by = c("id1", "id2")]$V1])
#  17.191   0.075  17.349

我运行了好几次，效果似乎有所改变。但是，我用以下命令编译所有包-O3优化标志（通过设置~/.R/Makevars适当地）。我观察到data.table性能比我比较过的其他软件包要好得多-O3.

分组速度对比

其次，了解这种缓慢的原因很重要。首先我们将时间与group.

system.time(group_by(df, id1, id2))
#   0.303   0.007   0.311 
system.time(data.table:::forderv(dt, by = c("id1", "id2"), retGrp = TRUE))
#   0.002   0.000   0.002

尽管总共有 250,000 行，但数据大小约为 38MB 左右。在这种大小下，分组速度不太可能出现明显差异。

data.table的分组是>100x这里更快，这显然不是这么慢的原因......

为什么慢？

那么原因是什么呢？让我们开启datatable.verbose选项并再次检查：

options(datatable.verbose = TRUE)
dt[dt[, .I[datetime == max(datetime)], by = c("id1", "id2")]$V1]
# Detected that j uses these columns: datetime 
# Finding groups (bysameorder=TRUE) ... done in 0.002secs. bysameorder=TRUE and o__ is length 0
# lapply optimization is on, j unchanged as '.I[datetime == max(datetime)]'
# GForce is on, left j unchanged
# Old mean optimization is on, left j unchanged.
# Starting dogroups ... 
#   memcpy contiguous groups took 0.097s for 230000 groups
#   eval(j) took 17.129s for 230000 calls
# done dogroups in 17.597 secs

So eval(j)仅此一项就花费了约 97% 的时间！我们提供的表达式j被评估为每组。由于您有 230,000 个组，并且对组有惩罚eval()打电话，加起来。

避免eval() penalty

由于我们意识到了这种惩罚，我们已经开始实现一些常用函数的内部版本：sum, mean, min, max。这将/应该扩展到尽可能多的其他功能（当我们有时间时）。

那么，让我们尝试计算一下获取的时间max(datetime) first:

dt.agg = dt[, .(datetime = max(datetime)), by = .(id1, id2)]
# Detected that j uses these columns: datetime 
# Finding groups (bysameorder=TRUE) ... done in 0.002secs. bysameorder=TRUE and o__ is length 0
# lapply optimization is on, j unchanged as 'list(max(datetime))'
# GForce optimized j to 'list(gmax(datetime))'

而且是即时的。为什么？因为max()进行内部优化gmax()并且没有eval()调用 230K 个组中的每个组。

那么为什么不是datetime == max(datetime)立即的？因为解析这样的表达式并在内部进行优化比较复杂，我们还没有做到这一点。

解决方法

现在我们知道了这个问题，也知道了解决它的方法，让我们使用它吧。

dt.agg = dt[, .(datetime = max(datetime)), by = .(id1, id2)]
dt[dt.agg, on = c("id1", "id2", "datetime")] # v1.9.5+

在我的 Mac 上这大约需要 0.14 秒。

请注意，这只是快速because表达式被优化为gmax()。将其与以下内容进行比较：

dt[, .(datetime = base::max(datetime)), by = .(id1, id2)]

我同意优化更复杂的表达式以避免eval()处罚将是理想的解决方案，但我们还没有做到这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)