R - 使用 data.table 有效测试多行和多列的滚动条件

2024-03-18

我正在尝试测试 data.table 中的各种条件，看起来像这个可重现的示例

 set.seed(17)
 year <- 1980 + rnbinom(10000,3,0.35)
 event <- rep(LETTERS, length.out=10000)
 z <- as.integer(runif(10000,min = 0, max = 10))
 dt <- data.table(event,year,z)
 setkey(dt, event,year)
 dt <- dt[,sum(z), by=c("event","year")]

V1（从最后一个命令中出现）表示事件发生的计数。

所以数据表是一个有序数组，我需要对其执行各种函数。这里有些例子：

如何计算每个事件在过去 10 年中发生次数的滚动总和（或滚动平均值）？因此对于A 1990 the 期望输出为 1,452（1980 年至 1989 年）。为了H 2012, the 输出是11因为2002年至2011年间仅发生了11次（2002年3次、2007年3次、2010年5次）。为了A 1983 the 输出是NA
如何检查某个事件是否在过去 15 年中至少有 12 年发生过？因此对于A 1997我们可以看到该事件在之前的15年中超过12年发生过（1982年-1996年，除了1996年之外的每一年都发生过），因此符合标准。然而，对于A 2001我们看到该事件仅发生在之前 15 年中的 11 年（1986 - 2000），它在 1996、1998、1999 和 2000 年没有发生）未达到标准。这里期望的输出是离散 1（满足标准）或 0（未满足标准）

理想情况下，代码不仅可以计算 1 和 2years发生在data.table也包括 1980 年至 2013 年间失踪的人。因此对于K 2005，我们可以将 Q1 的结果计算为 25 (13 + 5 + 3 + 3 + 2)（感谢 @Arun 指出前一个错误）。对于第二季度，我们看到该事件在 1999、2000、2001、2003 和 2004 年没有发生，因此未满足“15 年中至少有 12 年”的标准。此外，事件年份组合也可能存在于 data.table 中，但 V1 的值为 0（参见 A 2001 第 18 行）。理想情况下，这种零出现将被视为未出现（例如，通过删除 V1 为零的所有行）。

我知道发布两个问题并不常见，但我觉得它们属于在一起并且确实与类似的问题相关。希望有人可以提出一些建议。

多谢，

Simon

对于你的第一个问题：

这将获得不一定在数据集中的年份的运行总和（正如您在两点下方所要求的那样）。这个想法是首先生成所有组合event and year- 即使是数据集中不存在的数据。这可以通过函数来完成CJ（用于交叉连接）。这将，对于每个event，创建所有year.

setkey(dt, event, year)
d1 = CJ(event=unique(dt$event), year=min(dt$year):max(dt$year))

Now, we join回来与dt来填充缺失值V1与不适用。

d1 = dt[d1]

现在我们有了一个包含所有组合的数据集event and year。从这里开始，我们现在必须找到一种执行滚动总和的方法。为此，我们再次创建另一个数据集，其中包含每年的所有过去 10 年的数据，如下所示：

window_size = 10L
d2 = d1[, list(window = seq(year-window_size, year-1L, by=1L)), by="event,year"]

对于每个“事件，年份”，我们创建一个新列window，这将生成前 10 年。

现在，我们所要做的就是设置key适当地列并执行join得到相应的“V1”值。

setkey(d2, event, window) ## note the join here is on "event, window"
setkey(d1, event, year)

ans = d1[d2]

现在，我们有了每个“事件，窗口”组合的“V1”值。我们所要做的就是按“event,year.1”进行聚合（“year.1”以前是“year”，而“year”是ans以前是“窗口”）。在这里，我们考虑这样的条件：如果任何年份 TRUE | NA = TRUE and FALSE | NA = NA.

q1 = ans[, sum(V1, na.rm=TRUE) * (!any(year < 1980) | NA), by="event,year.1"]

q1[event == "K" & year.1 == "2005"]
#    event year.1 V1
# 1:     K   2005 25

对于你的第二个问题：

重复与上面相同的操作window_size = 15L而不是 10L 并起床直到ans。那么，我们可以这样做：

q2 = ans[!is.na(V1)][, .N, by="event,year.1"]

q2[event == "A" & year.1 == 1997]
#    event year.1  N
# 1:     A   1997 14

这是正确的，因为dt有从 1982-1995 的所有年份，缺少 1996，因此未计算 =>N=14，应该如此。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)