随时间序列滚动事件计数

2023-12-08

我正在尝试计算一系列时间范围内按组出现的滚动计数/总和。

我有一个数据框，其中包含一些示例数据，如下所示：

dates = as.Date(c("2011-10-09",
        "2011-10-15",
        "2011-10-16", 
        "2011-10-18", 
        "2011-10-21", 
        "2011-10-22", 
        "2011-10-24"))

group1=c("A",
         "C",
         "A", 
         "A", 
         "L", 
         "F", 
         "A")
group2=c("D",
         "A",
         "B", 
         "H", 
         "A", 
         "A", 
         "E")

df1 <- data.frame(dates, group1, group2)

我为每个唯一的“组”迭代单独的数据帧，例如，这就是“A”组的外观（它们出现在每一行中，无论是在 group1 还是 group2 中）。

我想计算“A”（然后是每个组）在某个时间范围内事件发生的次数 - 事件的“日期”（即当前行日期）和前 4 天。我想向前滚动，因此例如第 1 行的计数为 1，第 2 行的计数也为 1（除了当前日期之外，过去 4 天内没有任何事件），第 3 行的计数为 2，行4 会有 3 等等。

对于每一行，我希望最后有一列，基本上表示，在此事件日期，当前日期（如日期列中所示）和过去 4 天内发生了 X 数量的事件。

对于这个例子，你可能可以使用sapply分析每一行，计算当天或最多 4 天前的条目数，如下所示：

df1$lastFour <-
  sapply(df1$dates, function(x){
    sum(df1$dates <= x & df1$dates >= x - 4)
  })

结果是df1 of:

       dates group1 group2 lastFour
1 2011-10-09      A      D        1
2 2011-10-15      C      A        1
3 2011-10-16      A      B        2
4 2011-10-18      A      H        3
5 2011-10-21      L      A        2
6 2011-10-22      F      A        3
7 2011-10-24      A      E        3

如果，正如您的问题所暗示的那样，您的数据来自更大的集合，并且您想要对每个组进行分析（从概念上讲，我认为问题是：有多少事件发生了）这个组过去四天？仅在该组有活动的日子询问），您可以按照以下步骤操作。

首先，这里有一些较大的样本数据，其中的组标记为字母表的前 10 个字母：

biggerData <-
  data.frame(
    dates = sample(seq(as.Date("2011-10-01")
                       , as.Date("2011-10-31")
                       , 1)
                   , 100, TRUE)
    , group1 = sample(LETTERS[1:10], 100, TRUE)
    , group2 = sample(LETTERS[1:10], 100, TRUE)
  )

接下来，我提取数据中的所有组（在这里，我知道它们，但对于您的真实数据，您可能已经或可能没有该组列表）

groupsInData <-
  sort(unique(c(as.character(biggerData$group1)
                , as.character(biggerData$group2))))

然后，我循环遍历该组名称向量，并提取该组的每个事件作为两个组之一，添加与上面相同的列，并将单独的 data.frames 保存在列表中（并命名它们以使其成为更容易访问/跟踪它们）。

sepGroupCounts <- lapply(groupsInData, function(thisGroup){
  dfTemp <- biggerData[biggerData$group1 == thisGroup | 
                         biggerData$group2 == thisGroup, ]

  dfTemp$lastFour <-
    sapply(dfTemp$dates, function(x){
      sum(dfTemp$dates <= x & dfTemp$dates >= x - 4)
    })
  return(dfTemp)

}) 

names(sepGroupCounts) <- groupsInData

为数据中的每个组返回一个 data.frame，就像上面一样。

而且，我无法控制自己，所以这是一个dplyr and tidyr解决方案也是如此。它与上面基于列表的解决方案没有太大区别，只是它返回同一 data.frame 中的所有内容（这可能是好事，也可能不是好事，特别是因为这样每个事件都会有两个条目）。

首先，为了简单起见，我定义了一个函数来进行日期检查。这也可以很容易地在上面使用。

myDateCheckFunction <- function(x){
  sapply(x, function(thisX){
    sum(x <= thisX & x >= thisX - 4 )
  })
}

接下来，我将构建一组逻辑测试来确定每个组是否存在。这些将用于为每个组生成列，为每个事件中的存在/缺席提供 TRUE/FALSE。

dotsConstruct <-
  paste0("group1 == '", groupsInData, "' | "
         , "group2 == '", groupsInData, "'") %>%
  setNames(groupsInData)

最后，将其全部放入一个管道调用中。我没有描述，而是对每个步骤进行了评论。

withLastFour <-
  # Start with data
  biggerData %>%
  # Add a col for each group using Standard Evaluation
  mutate_(.dots = dotsConstruct) %>%
  # convert to long form; one row per group per event
  gather(GroupAnalyzed, Present, -dates, -group1, -group2) %>%
  # Limit to only rows where the `GroupAnalyzed` is present
  filter(Present) %>%
  # Remove the `Present` column, as it is now all "TRUE"
  select(-Present) %>%
  # Group by the groups we are analyzing
  group_by(GroupAnalyzed) %>%
  # Add the column for count in the last four dates
  # `group_by` limits this to just counts within that group
  mutate(lastFour = myDateCheckFunction(dates)) %>%
  # Sort by group and date for prettier checking
  arrange(GroupAnalyzed, dates)

结果与上面类似list输出，除了一个 data.frame 中的所有内容，这可以更轻松地分析某些功能。顶部看起来像这样：

       dates group1 group2 GroupAnalyzed lastFour
      <date> <fctr> <fctr>         <chr>    <int>
1 2011-10-01      B      A             A        1
2 2011-10-02      J      A             A        2
3 2011-10-05      C      A             A        5
4 2011-10-05      C      A             A        5
5 2011-10-05      G      A             A        5
6 2011-10-08      E      A             A        5

请注意，我的随机样本在 10 月 5 日发生了多个事件，导致此处计数较多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随时间序列滚动事件计数的相关文章

行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
在r中的某个阈值处破坏 cumsum() 函数

例如我有以下代码 cumsum 1 100 我想打破它如果一个元素 i 1 大于3000 我怎样才能做到这一点因此而不是这个结果 1 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 15
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
从数据框中绘制多条平滑线

我对 R 比较陌生我正在尝试绘制从 csv 文件加载的数据框数据由 6 列组成如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数例如 10 40 60 等组成其他列
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
将维基百科中的表格加载到 R 中

我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
R 改变构面的顺序

我正在尝试将方面的顺序从 BA SLG 更改为 SLG BA 我发现了与此类似的问题但我认为我的解决方案可能不起作用因为我已经在Excel中汇总了数据因此我的数据框可能会有所不同无论如何我尝试实现这个但无济于事 df2 lt f
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
是否有weighted.median()函数？

我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案这些解决方案写出了整个函数但希望有一些更用户友好的解决方案以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g

随机推荐

您的 Ruby 版本是 2.1.0，但您的 Gemfile 指定为 2.0.0

在我的 Gemfile 中我指定了 ruby 版本 2 0 0 ruby 2 0 0 但我的控制台告诉我我有 2 1 0dev ruby v ruby 2 1 0dev 2013 09 16 trunk 42951 x86 64 darw
如何存储具有数十亿个节点和顶点的大型有向未加权图

图的大小为数十亿个节点和数百亿个顶点它将存储网页 URL 以及网页之间的链接并将用于测试排名算法任何语言都可以但java是首选到目前为止我找到的解决方案 neo4j 存储在排序的平面文件中是的我已经读过存储访问有向图的最佳方
Ada 95：修改字典程序的输出

我找到了这本词典作者 William Whitaker 在互联网上我喜欢它的解析能力但输出不适合我问题对我来说是挑战给定输入形式例如 audiam 程序将返回以下输出纯文本 audi am V 4 1 PRES ACTIVE
随机数生成器性能因平台而异

我正在测试 C 中随机数生成器的性能并发现了一些我不明白的非常奇怪的结果我已经测试了 std rand 与使用 std minstd rand 的 std uniform real distribution std rand 计时代码
Android - 三星：使用配置活动创建小部件失败

我构建了一个可以将小部件添加到主屏幕的应用程序该小部件可与我的 Nexus 6P 和摩托罗拉 Moto G3 配合使用对于三星手机使用 S3 mini 4 1 2 S5 S6 6 0 1 进行测试小部件根本不会添加或者 Touch
使用 Apache Kafka Streaming 解析 JSON 数据

我有一个从 Kafka 主题读取 JSON 数据的场景通过使用 Kafka 0 11 版本我需要编写 Java 代码来流式传输 Kafka 主题中存在的 JSON 数据我的输入是包含字典数组的 Json 数据现在我的要求是获取文本
如何在 Swift 中使用名称为关键字的 Objective-C 类

我们正在尝试使用 BZObjectStore 库 https github com expensegasprices BZObjectStore 在我们的 Swift 项目中但在这个库中他们使用 where 作为名称来设置查询条件 BZ
如何取回以二进制形式存储在数据库中的java UUID

我们有一个 Java UUID 字段经过以下转换后以二进制字节形式存储在数据库 MySQL 中 private byte getUUIDtoBytes UUID devId byte uuidBytes new byte 16 ByteB
Spring JPA/Hibernate EmptyInterceptor 不注入 Entitymanager/Spring beans

专家大师朋友我们正在使用 Spring 3 2 JPA 2 Hibernate 4 2 组合并在尝试将任何带有 Spring 注解的 bean 注入到实现如下所示的 EmtyInterceptor 时面临这个奇怪的空指针问题我们尝
Ansible 不会转义 Windows 路径第一个参数

我在额外参数中有带有 Windows 路径名的剧本第一个参数不转义驱动器号和斜杠 ansible playbook d yaml extra vars ainstalldir c test stagedir D packages outd
Delphi - X 个组件后的 TScrollBox 问题

我注意到在我的一个测试应用程序中在将如此多的 TPanels 添加到 TScrollBox 后我遇到了绘制超过一定数量的 TPanels 的问题我在绘制之前禁用滚动框并且它总是在绘制之前被清除因此不存在相对位置问题最初我以为我可
MPI 缓冲发送/接收顺序

我正在使用 MPI 使用 fortran 但问题比任何给定语言都更具体地针对 MPI 标准并且特别使用缓冲发送接收函数 isend 和 irecv 现在如果我们想象以下场景进程0 isend stuff1 isend stuff2
无法在地图内使用 emmeans

这有效 testmodel glm breaks wool data warpbreaks emmeans emmeans testmodel wool 这有效 warpbreaks gt group by tension gt do mo
如何在 php app/console 中处理捆绑包生成：doctrine：crud

在我的 symfony 2 项目中我有一个捆绑包 src Cinergy Bundle PeopleServiceBundle 现在我想生成一个基于学说实体的 CRUD 控制器但我总是无法为实体参数输入正确的字符串我尝试过类似的事情
Python中简单的while循环直到break

什么会是一个非常简单的while循环语句会继续下面的程序直到用户输入 exit 例如 while response exit continue file else break print Thank you good bye I know
Collection.toArray() 与 Collection.stream().toArray()

考虑以下代码 List
Rails 4 / Bootstrap 3：如何在不同页面上显示不同的导航栏？

这里是 header html erb我们的 Rails 4 应用程序使用 Bootstrap 3 组件制作
如何借助 PHP 擦除文本中的 html 特殊字符（如和其他字符）？

如何擦除 html 特殊字符例如 nbsp 以及其他在 PHP 的帮助下从文本中获取的内容 newtext html entity decode your text 你必须删除 nbsp 分别地 newtext str replace n
GAMS 中的循环用于在 Excel 中生成场景

我有一个优化模型我尝试针对不同的输入文件求解该模型我将其准确地称为在不同场景下求解模型因此我需要一个循环来从 Excel 中读取每个不同工作表的数据让我说清楚例如在下图中我们有一个包含 4 个场景的数据每个场景的工作表名
随时间序列滚动事件计数

我正在尝试计算一系列时间范围内按组出现的滚动计数总和我有一个数据框其中包含一些示例数据如下所示 dates as Date c 2011 10 09 2011 10 15 2011 10 16 2011 10 18 2011 10

随时间序列滚动事件计数

随时间序列滚动事件计数 的相关文章

随机推荐

热门标签

随时间序列滚动事件计数的相关文章