按日期范围和分类变量合并数据集

2024-01-09

假设我有两个数据集。一个包含带有开始/结束日期的促销列表，另一个包含每个计划的每月销售数据。

promotions = data.frame(
    start.date = as.Date(c("2012-01-01", "2012-06-14", "2012-02-01", "2012-03-31", "2012-07-13")), 
    end.date = as.Date(c("2014-04-05", "2014-11-13", "2014-02-25", "2014-08-02", "2014-09-30")), 
    program = c("a", "a", "a", "b", "b"))

sales = data.frame(
    year.month.day = as.Date(c("2013-02-01", "2014-09-01", "2013-08-01", "2013-04-01", "2012-11-01")), 
    program = c("a", "b", "a", "a", "b"), 
    monthly.sales = c(200, 200, 200, 400, 200))

注意sales$year.month.day用于表示年/月。包含 Day 是为了让 R 可以更简单地将列视为日期对象的向量，但它与实际销售额无关。

我需要确定每个计划每月发生的促销次数。这是产生我想要的输出的循环示例：

sales$count = rep(0, nrow(sales))
sub = list()
for (i in 1:nrow(sales)) {
  sub[[i]] = promotions[which(promotions$program == sales$program[i]),]
  if (nrow(sub[[i]]) > 1) {
    for (j in 1:nrow(sub[[i]])) {
      if (sales$year.month.day[i] %in% seq(from = as.Date(sub[[i]]$start.date[j]), to = as.Date(sub[[i]]$end.date[j]), by = "day")) {
        sales$count[i] = sales$count[i] + 1
      }
    }
  }
}

输出示例：

 sales = data.frame(
    year.month.day = as.Date(c("2013-02-01", "2014-09-01", "2013-08-01", "2013-04-01", "2012-11-01")), 
    program = c("a", "b", "a", "a", "b"), 
    monthly.sales = c(200, 200, 200, 400, 200),
    count = c(3, 1, 3, 3, 2)
)

然而，由于我的实际数据集非常大，当我在 R 中运行它时，这个循环会崩溃。

有没有更有效的方法来达到相同的结果？也许与 dplyr 有关？

使用新实施的non-equi从当前开发版本的 data.table 连接：

require(data.table) # v1.9.7+
setDT(promotions) # convert to data.table by reference
setDT(sales)

ans = promotions[sales, .(monthly.sales, .N), by=.EACHI, allow.cartesian=TRUE, 
        on=.(program, start.date<=year.month.day, end.date>=year.month.day), nomatch=0L]

ans[, end.date := NULL]
setnames(ans, "start.date", "year.month.date")
#    program year.month.date monthly.sales N
# 1:       a      2013-02-01           200 3
# 2:       b      2014-09-01           200 1
# 3:       a      2013-08-01           200 3
# 4:       a      2013-04-01           400 3
# 5:       b      2012-11-01           200 2

请参阅开发版本的安装说明here https://github.com/Rdatatable/data.table/wiki/Installation.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

forloop

dplyr

按日期范围和分类变量合并数据集的相关文章

如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
针对约 225 万行的单表选择查询的优化技术？

我有一个在 InnoDB 引擎上运行的 MySQL 表名为squares大约有 2 250 000 行表结构如下 squares square id int 7 unsigned NOT NULL ref coord lat doubl
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
使用 React.forwardRef 与自定义 ref prop 的价值

我看到React forwardRef从反应文档来看似乎是将引用传递给子功能组件的认可方式 const FancyButton React forwardRef props ref gt
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
如何动态地将 sliderInput 添加到闪亮的应用程序中？

使用闪亮我上传一个 csv 文件并根据列名称我需要向 ui 添加滑块 sidebarPanel fileInput file1 Upload CSV File to Create a Model accept c text csv t
R 改变构面的顺序

我正在尝试将方面的顺序从 BA SLG 更改为 SLG BA 我发现了与此类似的问题但我认为我的解决方案可能不起作用因为我已经在Excel中汇总了数据因此我的数据框可能会有所不同无论如何我尝试实现这个但无济于事 df2 lt f
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
自定义轴缩放后 ggplot2 缺少标签

我正在尝试使用我的 x 轴应用自定义缩放ggplot2 and scales trans new 但是当我这样做时一些轴标签丢失了有人可以帮我弄清楚为什么吗 Setup library tidyverse the data ds lt
TypeScript 编译速度极慢 > 12 秒

只是把它放在那里看看其他人是否也遇到这个问题我已经使用 webpack 作为我的构建工具使用 typescript 构建了一个 Angular 2 应用程序一切都运行良好但是我注意到 typescript 编译超级超级慢我现在只有
C++ Exp 与 Log：哪个更快？

我有一个 C 应用程序需要比较两个值并决定哪个值更大唯一的复杂之处是一个数字在对数空间中表示而另一个则不是例如 double log num 1 log 1 23 double num 2 1 24 如果我想比较num 1 and
React Native：加载图像后应用程序性能不佳

加载图像似乎没有问题但是加载完毕后就出现问题了在我的应用程序中我在整个游戏中一张一张地加载卡片图像一旦我加载了 40 张卡片图像整个应用程序就会变得很慢它总是发生在第 40 个图像处当我在第 40 个图像之后继续加载更多卡片图
将整个包传递给雪簇

我正在尝试并行化使用snow parLapply 一些依赖于包即除snow 调用函数中引用的对象parLapply必须使用显式传递给集群clusterExport 有没有办法将整个包传递到集群而不必显式命名每个函数包括用户函数调用的
安装 2.15 后 ggplot2 中的 alpha 通道不起作用

更新到 R 2 15 后 ggplot 中的 alpha 通道似乎不再起作用 plot rnorm 100 rnorm 100 bg cc000055 pch 21 工作得很好但是 qplot rnorm 100 rnorm 100 col
使用“assign()”为列表项分配值

首先了解一些背景我写了一个中缀函数本质上取代了这个习惯用法 x length x 1 lt y 或者简单地说x lt append x y 对于向量这里是 lt function x y xcall lt substitute x x
更改绘图区域背景颜色

我想使用我们公司的颜色在 R 中制作一个图表这意味着所有图表的背景应为浅蓝色但绘图区域应为白色我正在寻找答案发现绘制一个矩形就可以完成这项工作几乎然而绘图区域现在是白色的并且图形不再可见这可能吗 getSymbols SP
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met

随机推荐

获取 li 元素的文本

ul class leftbutton li Sample 1 li li Sample 2 li li Sample 3 li li Sample 4 li li Sample 5 li ul 我想获取 id menu selected
创建类似于 iBook 或 Stanza 应用程序的 ePub 阅读器的最佳方法 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 gnuplot 中为 xticlabels 提供自定义字符串参数？

假设我有一个包含三列的数据文件我希望能够更改 x 轴标签经过一番谷歌搜索后我发现xticlabels 但问题是它似乎只接受列号作为参数用于 ex 绘图xticlabels 3 用第三列标记标签我希望能够把类似的东西 1 2作为该函数
合并重复的数组项

我有一个哈希数组 array keyword gt A total value gt 50 keyword gt B total value gt 25 keyword gt C total value gt 40 keyword gt A
进程友善度（优先级）设置对 Linux 没有影响

我编写了一个测试程序其中仅包含一个无限循环其中包含一些内部计算并且不执行 I O 操作我尝试启动该程序的两个实例其中一个具有高尼斯值另一个具有低尼斯值 sudo nice n 19 taskset 1 test sudo n
来自 github 的 Git 存储库空绿色文件夹

我正在从 github 中提取 git 存储库当我克隆存储库时会出现一个空文件夹其中应该包含一个项目由于其他项目引用了该文件夹当我浏览 github 上的存储库时该文件夹显示为绿色我有什么遗漏的吗我在用 git clone
在 Xcode 上管理代码片段的最佳方法是什么？

我已经爱上了 Visual Studio 的代码片段工具包 Xcode 上有类似的东西吗您还可以看看this https stackoverflow com questions 20420 any resharper equivalent
如何在Windows上安装PLV8？

我正在尝试将其安装在我的 PostgreSQL 服务器上 http code google com p plv8js wiki PLV8 http code google com p plv8js wiki PLV8这些文档看起来很棒但问
断开连接的图表上缺少悬停标记

我遇到了一个问题我不确定这是 highcharts 插件中的错误还是编程错误我使用空值来绘制仅包含一个系列的断开线图但这似乎是悬停标记的问题其中一些标记在第一行的顶部和第二行的底部似乎没有出现代码很简单但我找不到导致此问题的
Python - 来自 stdin 的 HTTP post [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我每秒左右从 bash 命令 ibeacon scan 获取这种格式的数据 ibeacon scan b stdin py Out
带 -a 的路径对于 bash 函数没有意义

这是我的 bash 函数 push gt cd var www html wp gt git init gt git add gt git commit am 1 gt git push f origin master gt 我想执行它 d
如何从支持某些 API 的函数返回非具体值？

我正在两个模型之间构建 API 我不在乎它是否返回或 Seq 或任何可折叠的都可以但如果我尝试这样做就会出错 module Main where import Prelude hiding foldr import Data Fold
C# 检查对象是否为空

我在使用 if 语句检查对象是否为空时遇到问题我有一个 webClient 在 try catch 中从网站中提取 JSON 字符串如果出错那是因为 API 中不存在 3 位国家地区我只想跳过它这是我的代码 System Net
检查 servlet 和 jsp 中的会话

在我的网络应用程序中我需要检查会话是否存在我想在我的 servlet 和 jsp 中检查这一点有什么方法可以检查这个吗 Thanks 你可以测试它HttpServletRequest getSession boolean create
Android-从 DatePickerDialogFragment 中删除 Calendarview

我有一个工作正常的 Datepickerdialog 片段当我单击按钮时 datepickerdialog 将打开左侧有微调器日期选择右侧有日历视图对于我在一个地方的应用程序我只想单独显示微调器日期选择部分必须删除或隐藏日历视图
将图像转换为 HTML/CSS 中的灰度

有没有一种简单的方法可以仅用灰度显示彩色位图HTML CSS 它不需要与 IE 兼容我想也不会如果它能在 FF3 和或 Sf3 中工作那对我来说就足够了我知道我可以同时做到SVG和 Canvas 但现在看来工作量很大有真正懒人的
合并到分支，合并到哪一个并不重要？

git 版本 1 7 5 4 我有大约5个分支机构全部来自同一个初始分支我想将 2 个分支合并在一起比如说 branch1 和branch2 这些分支有很多差异我目前正在分支 1 上工作刚刚意识到我在分支 2 中实现了一些我想要在
在twopi (Graphviz) 中控制间距

我是 Graphviz 的新手我正在尝试绘制一棵以实体为中心的树我正在使用twopi命令如果我把overlap true即使重叠标签周围有很多空间它也会重叠如果我把overlap false 标签变得太小如何才能拥有第一种情况而
如何在每次加载页面时仅重新加载一次

我有一个 JSP 页面即使在删除其中一项内容后该页面仍显示以前的内容我正在努力寻找问题但我需要快速解决此问题我在这方面很弱JavaScript所以请帮帮我我需要一个JavaScript每次访问页面时都会自动重新加载页面重新加载
按日期范围和分类变量合并数据集

假设我有两个数据集一个包含带有开始结束日期的促销列表另一个包含每个计划的每月销售数据 promotions data frame start date as Date c 2012 01 01 2012 06 14 2012 02 0

按日期范围和分类变量合并数据集

按日期范围和分类变量合并数据集 的相关文章

随机推荐

热门标签

按日期范围和分类变量合并数据集的相关文章