通过求和来聚合重复行

2024-01-20

根据我的问题：
1. 识别一组变量是否唯一标识数据的每一行； https://stackoverflow.com/q/22834725/1414455
2. 根据给定的变量集标记所有重复的行， https://stackoverflow.com/q/22893028/1414455
我现在想通过求和来聚合/合并给定变量集的所有重复行。

解决方案一：

有一些关于如何执行此操作的指导here https://stackoverflow.com/q/10180132/1414455，但当构成指标的变量级别较多时，ddply推荐的方法很慢，因为在我试图通过给定的变量集标记所有重复项的情况下。

# Values of (f1, f2, f3, f4) uniquely identify observations
dfUnique = expand.grid(f1 = factor(1:16),
                       f2 = factor(1:41),
                       f3 = factor(1:2),
                       f4 = factor(1:104))

# sample some extra rows and rbind them
dfDup = rbind(dfUnique, dfUnique[sample(1:nrow(dfUnique), 100), ])

# dummy data 
dfDup$data = rnorm(nrow(dfDup))

# aggregate the duplicate rows by taking the sum
dfDupAgg = ddply(dfDup, .(f1, f2, f3, f4), summarise, data = sum(data))

解决方案2：

第二种解决方案是使用data.table，并遵循建议here https://stackoverflow.com/a/12399304/1414455，我可以

# data.table solution
indexVars = paste0('f', 1:4, sep = '')
dtDup = data.table(dfDup, key = indexVars)
dtDupAgg = dtDup[, list(data = sum(data)), by = key(dtDup)]

我有一些问题：
1.有没有办法让ddply版本更快？
2. 是data.table正确的？我想检查一下，因为我是新手data.table.

关于你的data.table解决方案，你不需要set key用于聚合操作。您可以直接执行：

indexVars = paste0('f', 1:4, sep = '')
dtDup <- as.data.table(dfDup) ## faster than data.table(.)
dtDupAgg = dtDup[, list(data = sum(data)), by = c(indexVars)]

data.table1.9.2+版本还实现了一个功能setDT这使得能够转换data.frames to data.tables 引用（这意味着没有副本，因此转换几乎不需要时间，对于大型数据帧尤其有用）。

因此，不要这样做：

dtDup <- as.data.table(dfDup)
dtDup[...]

你可以这样做：

## data.table v1.9.2+
setDT(dfDup) ## faster than as.data.table(.)
dfDup[...]   ## dfDup is now a data.table, converted by reference

关于你的第一个问题，plyr不以其速度而闻名。查看为什么plyr这么慢？ https://stackoverflow.com/questions/11533438/why-is-plyr-so-slow（以及那里的许多信息丰富的评论）了解更多信息。

也许您可能感兴趣dplyr，这比plyr，但仍然慢于data.table，恕我直言。这是等效的dplyr版本：

dfDup %.% group_by(f1, f2, f3, f4) %.% summarise(data = sum(data))

这是之间的基准data.table and dplyr数据（所有计时均为连续三次运行的最小值）：

## data.table v1.9.2+
system.time(ans1 <- dtDup[, list(data=sum(data)), by=c(indexVars)])
#  user  system elapsed 
# 0.049   0.009   0.057 

## dplyr (commit ~1360 from github)
system.time(ans2 <- dfDup %.% group_by(f1, f2, f3, f4) %.% summarise(data = sum(data)))
#  user  system elapsed 
# 0.374   0.013   0.389

我实在是没有耐心去跑plyr版本（首次运行 93 秒后停止）。如你看到的dplyr比plyr，但比慢约 7 倍data.table here.

检查结果是否相等以确保：

all.equal(as.data.frame(ans1[order(f1,f2,f3,f4)]), 
          as.data.frame(ans2))
# [1] TRUE

HTH

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)