按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期

2024-03-29

从 SO 上其他地方窃取一个虚拟示例（按确切日期加入 data.table，如果不是，则按最近的小于日期加入 data.table https://stackoverflow.com/questions/11341557/join-data-table-on-exact-date-or-if-not-the-case-on-the-nearest-less-than-date），我希望根据第一个日期（Dt1 中的日期）严格早于第二个日期（Dt2 中的日期）来连接两个表。

还关闭了 DataCombine 解决方案“幻灯片”功能中的“警告”消息，因为它可能不公平地减慢了 mtotos 解决方案的速度。

library(data.table)

Dt1 <- read.table(text="
date      x
1/26/2010,  10  
1/25/2010,  9  
1/24/2010,  9   
1/22/2010,  7    
1/19/2010,  11", header=TRUE, stringsAsFactors=FALSE)

Dt2 <- read.table(text="
date
1/26/2010   
1/23/2010   
1/20/2010", header=TRUE, stringsAsFactors=FALSE)

加入所需的结果

   date     x  
1/26/2010 - 9 # based on closest observation strictly less than date  
1/23/2010 - 7   
1/20/2010 - 11

两种解决方案的时间

（我保留 data.frame 格式作为 mtoto 解决方案的输入，为 jangorecki 的解决方案保留 data.table ）。

solution.mtoto = function(Df1, Df2)
{
  #Full outer join of two df's
  merged <- merge(Df1, Df2, by = "date", all = T, sort=T)

  # Shifting values backwards by one using 'slide' from DataCombine
  merged <- slide(merged, Var = "x", slideBy = -1, reminder = F)

  # Inner join retaining the relevant cols
  return(merge(Df2,merged)[,-2])
}

solution.jangorecki = function(Dt1, Dt2)
{
  offset.roll.join = function(Dt1, Dt2){
    Dt2[, jndate := date - 1L] # produce join column with offset
    on.exit(Dt2[, jndate := NULL]) # cleanup join col on exit
    Dt1[Dt2, .(date = i.date, x), on = c("date" = "jndate"), roll = Inf] # do rolling join
  }
  return(offset.roll.join(Dt1, Dt2))
}

res.mtoto = sapply(1:10, FUN = function(x){system.time({solution.mtoto(Df1, Df2)})})

res.jangorecki = sapply(1:10, FUN = function(x){system.time({solution.jangorecki(Dt1, Dt2)})})


> res.mtoto[c("user.self", "sys.self"),]
           [,1]  [,2]  [,3]  [,4]  [,5]  [,6]  [,7]  [,8]  [,9] [,10]
user.self 0.004 0.004 0.004 0.004 0.003 0.003 0.003 0.003 0.003 0.003
sys.self  0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

> res.jangorecki[c("user.self", "sys.self"),]
           [,1]  [,2]  [,3]  [,4]  [,5]  [,6]  [,7]  [,8]  [,9] [,10]
user.self 0.005 0.005 0.004 0.004 0.005 0.004 0.004 0.004 0.003 0.004
sys.self  0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

编辑，在 mtoto 的解决方案中意外引用了 Dt1 而不是 Df1。现在已修复。

相似的速度（在更大的数据集上可能更明显？）。我的另一个问题是我希望在第二个表中返回日期。

例如，期望的结果是：

date - x - date2
1/26/2010 - 9 - 1/25/2010
1/23/2010 - 7 - 1/22/2010
1/20/2010 - 11 - 1/19/2010

滚动连接-1L抵消。

更新2016-04-02: With 这次提交 https://github.com/Rdatatable/data.table/commit/620276b3fef4996d2c377257c1ec49c7be10d783在当前的开发 v1.9.7 中，无需创建临时列即可完成此操作。从NEWS https://github.com/Rdatatable/data.table/blob/master/README.md:

x 的列可以参考j使用前缀x.每时每刻。当需要将 x 的列同时作为连接列时，这尤其有用。这是一个补丁寻址#1615 https://github.com/Rdatatable/data.table/issues/1615.

Dt2[, jndate := date - 1L]
Dt1[Dt2,
    .(date = i.date, orgdate = x.date, x),
    on = c("date" = "jndate"),
    roll = Inf]
#         date    orgdate  x
#1: 2010-01-26 2010-01-25  9
#2: 2010-01-23 2010-01-22  7
#3: 2010-01-20 2010-01-19 11

原始答案，如果您使用的是 1.9.6 或更早版本，则很有用。

library(data.table)

# data
Dt1 = fread("date      x
1/26/2010,  10  
1/25/2010,  9  
1/24/2010,  9   
1/22/2010,  7    
1/19/2010,  11")[, date := as.IDate(date, format=("%m/%d/%Y"))][]
Dt2 = fread("date
1/26/2010   
1/23/2010   
1/20/2010")[, date := as.IDate(date, format=("%m/%d/%Y"))][]

# solution
offset.roll.join = function(Dt1, Dt2){
    Dt2[, jndate := date - 1L] # produce join column with offset
    Dt1[, orgdate := date] # should not be needed after data.table#1615
    on.exit({Dt2[, jndate := NULL]; Dt1[, orgdate := NULL]}) # cleanup on exit
    Dt1[Dt2, .(date = i.date, orgdate, x), on = c("date" = "jndate"), roll = Inf] # do rolling join
}
offset.roll.join(Dt1, Dt2)
#         date    orgdate  x
#1: 2010-01-26 2010-01-25  9
#2: 2010-01-23 2010-01-22  7
#3: 2010-01-20 2010-01-19 11

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期的相关文章

计算数据帧 R 中字符串的频率

我想计算数据框中某些字符串的频率 strings lt c pi pie piece pin pinned post df lt as data frame strings 然后我想计算字符串的频率 counts lt c pi in pi
删除绘图轴值

我只是想知道是否有一种方法可以消除 r 图中的轴值分别是 x 轴或 y 轴我知道axes false将摆脱整个轴但我只想摆脱编号删除 x 轴或 y 轴上的编号 plot 1 10 xaxt n plot 1 10 yaxt n 如果
linux下无法安装Cairo包

我在本地下载该软件包并尝试安装它但出现此错误 R CMD INSTALL l usr local lib64 R library Cairo 1 5 1 tar gz 我得到他的错误 checking for PNG support in
提取所有列组中共有的元素

我有一个 R 数据集 x 如下 ID Month 1 1 Jan 2 3 Jan 3 4 Jan 4 6 Jan 5 6 Jan 6 9 Jan 7 2 Feb 8 4 Feb 9 6 Feb 10 8 Feb 11 9 Feb 12 10
R中一张图中的多个条形图

我是 R 初学者我需要创建一个像这样的图表 https i stack imgur com az56z jpg https i stack imgur com az56z jpg 我不知道如何生成整个数据集基本思想是某个外显子 ID 会
读取多个 CSV 文件，并在文件开头跳过不同行数

我必须阅读大约 300 个单独的 CSV 我已经成功使用循环和结构化 CSV 名称来自动化该过程然而每个 CSV 在开头都有 14 17 行垃圾并且随机变化因此在 read table 命令中硬编码 skip 参数将不起作用每个
多个线程将其结果填充到一个 DataTable C# 中

我刚刚开始学习线程的概念我有点陷入这个问题它让我发疯我实际上需要完成什么我在本地目录中有大约 300 个文本文件需要解析它们以获取特定值在每个文本文件中找到这些值后我需要将它们存储在数据库中因此我遵循访问目录中每个文本
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
获取所有参数作为列表

R 是否提供对象函数方法关键字来获取所有函数参数使用一个例子 function a b default 会提供a and b也在函数环境内有没有类似的说法list 这还包括a and b在结果中或者换一种方式简写list a
R 中的聚类分析：确定最佳聚类数

如何选择最佳的聚类数量来进行 k 均值分析绘制以下数据的子集后多少个簇比较合适如何进行聚类树突分析 n 1000 kk 10 x1 runif kk y1 runif kk z1 runif kk x4 sample x1 lengt
使用 ape 包在 R 中进行标签和色叶树状图（系统发育）

继上一篇文章之后 r 中的标签和彩色叶树状图 https stackoverflow com questions 18802519 label and color leaf dendrogram in r 我有一个后续问题我的问题与提到的
指定生存图的自定义时间点

我正在努力使用以下方法创建生存累积事件图ggsurvplot函数从survminer包裹我想为我的绘图指定自定义时间点但我不知道该怎么做这xlim and break x by参数有点帮助但它们创建了均匀间隔的时间点和比我想要的更
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
如何在environment.yml中安装CRAN包

我正在使用 miniconda 来管理数据科学包的安装这是我现在已经建立的工作流程所以我希望它也能在这种情况下工作我也认为它可以工作因为它应该在这样的情况下有所帮助比纯 python 需要更多的依赖项我想安装pythonCDT工
用于不规则时间序列的滚动窗口函数，可以处理重复项

我有以下数据框 grp nr yr 1 A 1 0 2009 2 A 2 0 2009 3 A 1 5 2009 4 A 1 0 2010 5 B 3 0 2009 6 B 2 0 2010 7 B NA 2011 8 C 3 0 2014
R：install.packages 中出现错误：无法打开连接

我试图安装 RINDSEL 包但无法安装它并且不断收到以下错误 install packages 中出错无法打开连接我从以下位置下载了该软件包 rindsel 1 0 2 zip 综合养殖平台 http old ibpdev net
rowSums 全部 NA [重复]

这个问题在这里已经有答案了 df lt data frame a c 1 1 NA 0 1 0 b c 0 1 NA NA 0 1 c c NA 0 NA 0 1 NA d c 1 NA NA 1 1 0 rowSums df 1 NA N
ggplot() 使用scale::percent_format() 缩放产生奇怪的结果

library tidyverse mtcars gt count cyl gt mutate prop n sum n gt ggplot aes x cyl y prop geom point scale y continuous la
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
R data.table fread 使用不带标题的命名 colClasses（例如没有 col.names？）

更新 2016 年 6 月 col names 已添加到 data table 1 9 6 所以问题已经结束每个人都非常高兴我想我现在可以将所有 read csv 调用转换为 fread 调用而不必担心破坏原问题使用数据表1 9

随机推荐

为什么在强制解包的 nil 可选值类型上使用dynamicType 有效？

我真的很困惑地发现以下代码根本拒绝因典型的解包可选值时意外发现 nil 强制展开所期望的异常bar struct Foo var bar Bar struct Bar var foo Foo debugPrint foo bar nil
从 UNIX 树中删除路径前缀

我对 UNIX 命令有一个要求我有一条与此类似的路径 path to file manyfiles extensions 现在我想要的输出类似于 file manyfiles extensions 现在我可以列出 path to 和 pa
防止 d3 和弦重叠

这个演示 http projects delimited io experiments chord diagrams coffee from files html 不是我的代码将两个不同类别的项目相互比较因此与任何项目都可以连接到任何
为什么我在 seaborn 线图中出现线阴影？

这是代码 fig plt figure figsize 14 8 sns lineplot x season y team strikerate hue batting team data overall batseason plt leg
用于显示名称/值对的适当 HTML 模式是什么？

我受到我的评论的启发而问这个问题如何设置名称值对列表的样式以使其看起来像 HTML 表格 https stackoverflow com questions 6985296 how can i style a list of name v
有没有办法通过某人的电子邮件地址搜索 Twitter API？

我看到类似的网站http klout com http klout com您添加一堆电子邮件它们会告诉您一个人使用哪些服务并对其使用情况进行评分我有一个新网站的电子邮件列表我想通过调用 twitter API 在我的管理面板中查看谁是
删除字符串中直到最后一个正斜杠的所有内容[重复]

这个问题在这里已经有答案了我有一个像这样的字符串 vehicles vehicle type filename csv 我只想留下 filename csv 我已经尝试过这个 sub the string 但出现无法识别的字符串转义错
VB.NET：获取实例的类名

有没有办法用 VB NET 获取实例的类名尝试以下操作 Dim name Me GetType Name 或者对于任何实例 Dim name theObject GetType Name
jquery表格列滑动效果

我需要一个 Jquery 脚本来实现表格滑动效果就像 http sfsdirectdemo projects sourceflow com luke http sfsdirectdemo projects sourceflow com l
如何从 gradle 构建中获取版本属性以包含在运行时 Swing 应用程序中

我有一个简单的父项目其中包含模块应用程序我选择的构建工具是 gradle 家长build gradle定义如下 apply plugin groovy dependencies compile gradleApi compile lo
受约束景观的程序生成

我想实现地形的程序生成经过彻底的研究后我得出的结论是应该使用梯度相干噪声生成算法之一来实现例如 Perlin 噪声算法然而我不希望生成是完全随机的我想应用一些限制例如哪里应该是山脉或者哪里应该是低地等问题例如我有
如何在 Visual C++ 中抑制外部标头中的警告

我正在启动一个新的 BREW 项目并且我想使用警告级别 4 W4 进行编译以保持应用程序代码的美观和干净问题是 BREW 头文件本身不能用 W4 干净地编译在 gcc 中您可以使用 I 和 isystem 来区分应用程序头和系统头
PubSubHubbub 中 hub.lease_seconds 的最大值

我一直在使用 PubSubHubbub 版本 0 4 来检索 YouTube 实时数据我正在经历PubSubHubbub 文档 https pubsubhubbub github io PubSubHubbub pubsubhubbub
如何使用 msbuild 获取 exec 任务输出

我试图通过 exec 任务获得简单的输出msbuild
如何在没有竞争条件的情况下重命名（）？

如果我想重命名A to B 但前提是B不存在天真的事情会检查是否B存在与access B F OK 或类似的东西如果不继续rename 不幸的是这会打开一个窗口在此期间其他进程可能会决定创建B 然后它被覆盖更糟糕的是没有迹象表明
如何使用 GStreamer 和 XOverlay 在 GTK+ 应用程序窗口中嵌入视频？

我正在尝试使用 GTK 和 GStreamer 编写一个小型媒体播放器目前使用 XOverlay 接口将视频嵌入到 GtkDrawing 区域中INSIDE主窗口该程序是使用以下命令编译的 g home phongcao cacao c
`rand()` 的用处 - 或者谁应该调用 `srand()`？

背景我用的是rand std rand std random shuffle 以及我的代码中用于科学计算的其他函数为了能够重现我的结果我总是明确指定随机种子并通过srand 直到最近我才发现 libxml2 也会调用srand 懒洋
Chrome 扩展程序将消息从 iFrame 发送到事件页面，然后发送到内容脚本

我已经从内容脚本插入了一个 iframe 效果很好但是如果我想在 iframe 上显示父级的 html 内容我必须使用消息传递在 iframe 和内容脚本之间进行通信但它不起作用然后我尝试将消息从 iframe 发送到事件页面然
OSX 上的 mongodb：如何更新 brew 服务以通过身份验证启动？

我用自制软件安装了 mongodb 我添加了一个 admin 并更新了 usr local etc mongod conf 以启用安全授权我可以使用 auth 启动 mongod mongod auth port 27017 dbpath
按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期

从 SO 上其他地方窃取一个虚拟示例按确切日期加入 data table 如果不是则按最近的小于日期加入 data table https stackoverflow com questions 11341557 join data t

按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期

两种解决方案的时间

按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期 的相关文章

随机推荐

热门标签

按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期的相关文章