我有一个看起来像这样的数据集
set.seed(100)
da <- data.frame(exp = c(rep("A", 4), rep("B", 4)), diam = runif(8, 10, 30))
对于数据集中的每一行,我想总结大于特定行中的直径并包含在级别“exp”中的观察值(直径)。
为此,我做了一个循环:
da$d2 <- 0
for (i in 1:length(da$exp)){
for (j in 1:length(da$exp)){
if (da$diam[i] < da$diam[j] & da$exp[i] == da$exp[j]){
da$d2[i] = da$d2[i] + da$diam[j]}
}
}
循环工作正常,我得到了结果
exp diam d2
1 A 16.15532 21.04645
2 A 15.15345 37.20177
3 A 21.04645 0.00000
4 A 11.12766 52.35522
5 B 19.37099 45.92347
6 B 19.67541 26.24805
7 B 26.24805 0.00000
8 B 17.40641 65.29445
然而,我的真实数据集比这个大得多(> 40000 行和 > 100 exp 级别),因此循环速度非常慢。我希望可以使用一些函数来方便计算。
如果您不需要结果中的初始顺序,您可以像这样非常有效地完成:
library(data.table)
setorder(setDT(da), exp, -diam)
da[, d2 := cumsum(diam) - diam, by = exp]
da
# exp diam d2
#1: A 21.04645 0.00000
#2: A 16.15532 21.04645
#3: A 15.15345 37.20177
#4: A 11.12766 52.35522
#5: B 26.24805 0.00000
#6: B 19.67541 26.24805
#7: B 19.37099 45.92347
#8: B 17.40641 65.29445
使用 dplyr,那就是:
library(dplyr)
da %>%
arrange(exp, desc(diam)) %>%
group_by(exp) %>%
mutate(d2 = cumsum(diam) - diam)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)