将观察结果与重叠日期相结合

2023-12-31

我的数据框中的每个观察结果都包含不同的“日期之前”和“日期之后实例”。问题是每个 ID 的某些日期重叠。例如，在下表中，ID 1 和 4 包含重叠的日期值。

ID  before date after date
1   10/1/1996   12/1/1996
1   1/1/1998    9/30/2003
1   1/1/2000    12/31/2004
2   1/1/2001    3/31/2006
3   1/1/2001    9/30/2006
4   1/1/2001    9/30/2005
4   10/1/2004   12/30/2004
4   10/3/2004   11/28/2004

我正在尝试得到这样的东西：

ID  before date after date
1   10/1/1996   12/1/1996
1   1/1/1998    12/31/2004
2   1/1/2001    3/31/2006
3   1/1/2001    9/30/2006
4   1/1/2001    9/30/2005

基本上，我想将任何重叠的日期值替换为重叠值的日期范围，保留不重叠的值，并删除任何不必要的行。不知道该怎么做

首先，您应该将字符串日期转换为Date- 分类值，这将使比较成为可能。以下是我定义和强制您的数据的方式：

df <- data.frame(ID=c(1,1,1,2,3,4,4,4), before.date=c('10/1/1996','1/1/1998','1/1/2000','1/1/2001','1/1/2001','1/1/2001','10/1/2004','10/3/2004'), after.date=c('12/1/1996','9/30/2003','12/31/2004','3/31/2006','9/30/2006','9/30/2005','12/30/2004','11/28/2004') );
dcis <- grep('date$',names(df));
df[dcis] <- lapply(df[dcis],as.Date,'%m/%d/%Y');
df;
##   ID before.date after.date
## 1  1  1996-10-01 1996-12-01
## 2  1  1998-01-01 2003-09-30
## 3  1  2000-01-01 2004-12-31
## 4  2  2001-01-01 2006-03-31
## 5  3  2001-01-01 2006-09-30
## 6  4  2001-01-01 2005-09-30
## 7  4  2004-10-01 2004-12-30
## 8  4  2004-10-03 2004-11-28

现在，我的解决方案涉及计算一个“重叠分组”向量，我称之为og。它假设输入df是由ID进而before.date，它位于您的示例数据中。如果没有，这可以通过以下方式实现df[order(df$ID,df$before.date),]。这是我的计算方法og:

cummax.Date <- function(x) as.Date(cummax(as.integer(x)),'1970-01-01');
og <- with(df,c(0,cumsum(!(ID[-length(ID)]==ID[-1] & ave(after.date,ID,FUN=cummax)[-length(after.date)]>before.date[-1]))));
og;
## [1] 0 1 1 2 3 4 4 4

不幸的是，基础Rcummax()功能不起作用Date- 分类对象，所以我必须写一个cummax.Date()垫片。我将解释一下需要ave() and cummax()业务在帖子末尾。

正如您所看到的，通过排除第一个元素，上述计算滞后于两个向量化比较中每一个的 RHS[-1]。这使我们能够比较记录的ID与以下记录相等ID，并比较是否是after.date是在之后before.date以下记录。得到的逻辑向量进行 AND 运算 (&）一起。然后，该逻辑向量的否定表示相邻的记录对not重叠，因此我们可以cumsum()结果（并在前面添加零，因为第一个记录必须以零开头）以获得我们的分组向量。

最后，对于解决方案的最后一部分，我使用了by()独立与每个重叠组合作：

do.call(rbind,by(df,og,function(g) transform(g[1,],after.date=max(g$after.date))));
##   ID before.date after.date
## 0  1  1996-10-01 1996-12-01
## 1  1  1998-01-01 2004-12-31
## 2  2  2001-01-01 2006-03-31
## 3  3  2001-01-01 2006-09-30
## 4  4  2001-01-01 2005-09-30

由于组中的所有记录必须具有相同的ID，并且我们假设记录按以下顺序排序before.date（在被订购后ID，不再相关），我们可以得到正确的ID and before.date组中第一条记录的值。这就是为什么我开始g[1,]。那么我们只需要得到最大的after.date从小组通过max(g$after.date)，并覆盖第一条记录after.date与此，我已经完成了transform().

关于性能的一句话：关于排序的假设有助于提高性能，因为它允许我们通过滞后矢量化比较简单地将每个记录与紧随其后的记录进行比较，而不是将组中的每个记录与其他记录进行比较。

现在，对于ave() and cummax()商业。在写完答案的初始版本后，我意识到我的解决方案存在缺陷，而您的示例数据恰好没有暴露该缺陷。假设一组中有 3 个记录。如果第一条记录的范围与both下面两条记录，然后中间的记录not与第三条记录重叠，那么我的（原始）代码将无法识别第三条记录是前两条记录的同一重叠组的一部分。

解决方案不是简单地使用after.date与后续记录进行比较时使用当前记录，而是使用累积最大值after.date组内。如果任何较早的记录完全超出了紧随其后的记录，那么它显然与该记录重叠，并且它的after.date在考虑后续记录的重叠组时重要的是。

这是需要此修复的输入数据的演示，使用您的df作为基础：

df2 <- df;
df2[7,'after.date'] <- '2004-10-02';
df2;
##   ID before.date after.date
## 1  1  1996-10-01 1996-12-01
## 2  1  1998-01-01 2003-09-30
## 3  1  2000-01-01 2004-12-31
## 4  2  2001-01-01 2006-03-31
## 5  3  2001-01-01 2006-09-30
## 6  4  2001-01-01 2005-09-30
## 7  4  2004-10-01 2004-10-02
## 8  4  2004-10-03 2004-11-28

现在记录 6 与记录 7 和 8 都重叠，但记录 7 不与记录 8 重叠。该解决方案仍然有效：

cummax.Date <- function(x) as.Date(cummax(as.integer(x)),'1970-01-01');
og <- with(df2,c(0,cumsum(!(ID[-length(ID)]==ID[-1] & ave(after.date,ID,FUN=cummax)[-length(after.date)]>before.date[-1]))));
og;
## [1] 0 1 1 2 3 4 4 4
do.call(rbind,by(df2,og,function(g) transform(g[1,],after.date=max(g$after.date))));
##   ID before.date after.date
## 0  1  1996-10-01 1996-12-01
## 1  1  1998-01-01 2004-12-31
## 2  2  2001-01-01 2006-03-31
## 3  3  2001-01-01 2006-09-30
## 4  4  2001-01-01 2005-09-30

这是一个证明og如果没有ave()/cummax() fix:

og <- with(df2,c(0,cumsum(!(ID[-length(ID)]==ID[-1] & after.date[-length(after.date)]>before.date[-1]))));
og;
## [1] 0 1 1 2 3 4 4 5

对解决方案进行小调整，覆盖after.date提前og计算，并避免max()调用（如果您打算覆盖原始内容，则更有意义df使用新的聚合）：

cummax.Date <- function(x) as.Date(cummax(as.integer(x)),'1970-01-01');
df$after.date <- ave(df$after.date,df$ID,FUN=cummax);
df;
##   ID before.date after.date
## 1  1  1996-10-01 1996-12-01
## 2  1  1998-01-01 2003-09-30
## 3  1  2000-01-01 2004-12-31
## 4  2  2001-01-01 2006-03-31
## 5  3  2001-01-01 2006-09-30
## 6  4  2001-01-01 2005-09-30
## 7  4  2004-10-01 2005-09-30
## 8  4  2004-10-03 2005-09-30
og <- with(df,c(0,cumsum(!(ID[-length(ID)]==ID[-1] & after.date[-length(after.date)]>before.date[-1]))));
og;
## [1] 0 1 1 2 3 4 4 4
df <- do.call(rbind,by(df,og,function(g) transform(g[1,],after.date=g$after.date[nrow(g)])));
df;
##   ID before.date after.date
## 0  1  1996-10-01 1996-12-01
## 1  1  1998-01-01 2004-12-31
## 2  2  2001-01-01 2006-03-31
## 3  3  2001-01-01 2006-09-30
## 4  4  2001-01-01 2005-09-30

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将观察结果与重叠日期相结合的相关文章

收集四列，其中两个键中包含值

已经提出了类似的问题但它们都涉及在一个关键列中收集多个列我需要两个键中的多个列这是我的数据框 ID measure A 1 measure A 2 measure B 1 measure B 2 1 8 25 23 5 4 5 2 8
R 中 nlme 包中的 gls 函数出错

我不断收到这样的错误 Error in coef lt corARMA tmp value c 18 3113452983211 1 56626248550284 Coefficient matrix not invertible 或者像这
ess-rdired：我收到此错误“现在没有 ESS 进程与此缓冲区关联”

To use ess rdired为了浏览对象我按照 ESS 手册并将以下内容添加到我的 emacs autoload ess rdired ess rdired View R objects in a dired like buffer
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
r：按多列分组并计数

我有以下数据框 df LeftOrRight SpeedCategory NumThruLanes R 25to45 3 L 45to62 2 R Gt62 1 我想按速度类别对其进行分组并循环遍历其他列以获取每个速度类别中每个唯一代码的
dplyr：带引号变量名的 mutate 的标准评估

我将如何使用mutate 我的假设是我正在寻找标准评价就我而言因此mutate 但我对此并不完全有信心当使用接受变量名列表的函数时如下所示 createSum function data variableNames data gt m
关于子组的新列和另一列中的百分比范围

我有一个如下所示的示例 df df test lt data frame Group Name c Group1 Group2 Group1 Group2 Group2 Group2 Group1 Sub group name c A A
将文件夹中的多个 csv 文件读取到 R 中的单个数据帧中[重复]

这个问题在这里已经有答案了我有一个包含 332 个 csv 文件的文件夹文件名称如下 001 csv 002 csv 003 csv 330 csv 331 csv 332 csv 所有文件都具有相同数量的变量和相同的格式我需要读取一
在 R 中安全地计算算术表达式？

Edit 好吧由于似乎有很多混乱我将稍微简化一下问题您可以尝试回答下面的原始问题或者您可以解决此版本并忽略该行下面的所有内容我的目标是采用任意表达式并在极其受限的环境中对其进行评估该环境将仅包含具有以下类型值的变量数值向量接
更新两组单选按钮 - 闪亮

我问了这个问题反应式更新两组单选按钮闪亮 https stackoverflow com questions 35040579 update two sets of radiobuttons reactively shiny 昨天但也
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
RMySQL fetch - 找不到继承的方法

使用 RMySQL 我想将数据从数据库加载到 R 中的数据帧中为此我使用以下代码 R连接数据库 con lt dbConnect MySQL user root password password dbname prediction h
获取给定字符串日期中该月的最后一天

我的输入字符串日期如下 String date 1 13 2012 我得到的月份如下 SimpleDateFormat dateFormat new SimpleDateFormat MM dd yyyy Date convertedDat
Shiny：从DT数据表中选定的行获取信息

我们正在尝试重新创建示例 https demo shinyapps io 029 row selection https demo shinyapps io 029 row selection 使用DT包来渲染数据帧而不是shiny包 DT
使用 strtotime() 计算时间差（以小时和分钟为单位）[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions time1
在zooreg时间序列中查找非唯一索引条目时遇到问题

我有几年的数据正在尝试将其转化为动物园对象 Dropbox 上的 csv https www dropbox com sh vg8w8pt16e0v3xs AABKtWqDkPu9JVKpwBXO36VOa dl 0 一旦数据被强制转换为动
使用矢量相应地更改传单线条的颜色

无论如何是否可以根据某些变量的值更改传单线条的颜色我用谷歌搜索发现了这个link http hgoebl github io Leaflet MultiOptionsPolyline demo 然而我想知道是否有一种简单的方法可以在
按名称包含在单个对象中的多个列对 data.frame 进行排序？

我想排序一个data frame由多列组成理想情况下使用基础 R 无需任何外部包尽管如果有必要就这样吧读过如何按列对数据框进行排序 https stackoverflow com questions 1296646 how to s
R中data.frame（列表）的列平均值

Data https i stack imgur com ZYsmv jpg 请我需要计算此 data frame 中维吉尼亚币 Sepal Length 列的平均值 Sepal Length Sepal Width Petal Leng

随机推荐

位运算与

这是一个leetcode问题给定一个数字数组 nums 其中恰好有两个元素仅出现一次而所有其他元素恰好出现两次找出只出现一次的两个元素例如给定 nums 1 2 1 3 2 5 返回 3 5 我的代码是 class Solutio
使用bash，如何删除特定目录中所有文件的扩展名？

我想保留这些文件但删除它们的扩展名这些文件的扩展名不同我的最终目标是删除它们的所有扩展并将它们更改为我选择的一个扩展我已经把第二部分写下来了到目前为止我的代码 bin bash echo n Enter the directory
寻找在过程中保持大小并清除旧元素的数据结构

Usecase维护最后 n 个访问过的 URL 的列表其中 n 是固定数字当新的 URL 添加到列表中时旧的 URL 会自动删除以使其保持在 n 个元素要求数据结构需要按时间排序如果接受 Comparator 应该没问题你需要
如何遍历 N 叉树

我的树节点类 import java util ArrayList import java util List public class Node
如果未安装应用程序，则重定向到应用程序商店

场景是用户将获得他的电子邮件的链接如果用户单击链接如果应用程序已安装则应用程序应打开如果应用程序未安装则应重定向到应用程序商店我已经看到了深度链接的实现但我相信它也需要在后端进行更多的实现任何人都可以帮忙解决这个问题吗如果
如何在 Webpack 中使用 Tree Shaking？

我刚刚使用 Angular 2 版本 rc 2 应用程序使用 Typescript 更新到 webpack 2 1 0 beta 15 但我想知道如何使用树摇动功能我读到它应该开箱即用但我仍然有一个 1 7Mb 的捆绑包用于一个非常
我在哪里可以下载 Facebook 的 PHP 源代码转换器 HipHop [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在哪里可以下载 PHP 版 HipH
是否可以列出数据库中的所有外键？

如何列出 sql server 数据库中的所有 F 我使用这个语句看起来效果很好 SELECT RC CONSTRAINT NAME FK Name KF TABLE SCHEMA FK Schema KF TABLE NAME FK T
带有电子邮件域的 AutoCompleteTextView android

所以我的应用程序中有一个自动完成文本视图字段我希望用户输入他的电子邮件地址现在为了帮助他更快地打字并且不犯错误我想在打字时向他建议最常见的电子邮件域服务器我将该控件与该数组一起使用 String arraymails gmail
如何更改选项卡主机的默认颜色

我使用的是2 2 SDK版本我使用 TabHost 以选项卡视图格式显示活动当我在手机中安装应用程序版本2 2 1 时选项卡主机颜色已更改为黄色即使我也不给 TabHost 任何颜色我不知道为什么颜色改变了当我在模拟器中运行相
Android WebView UTF-8 不显示

我有一个 webview 并尝试将简单的 UTF 8 文本加载到其中 mWebView loadData 將賦予他們的傳教工作標示為 text html UTF 8 但 WebView 显示 ANSI ASCII 垃圾显然是编码问题但是
Django 开发服务器重新加载时间太长

自从我升级到 OSX Lion 以来这一直是我的问题每当我更改 Django 项目中的文件时运行服务器重新加载需要相当长的时间才能再次开始服务即使在新创建的 Django 1 4 项目中也会发生这种情况不过在 Snow Leop
如何在 Python 2.7 中创建计时器？

我目前正在使用 Pyglet 库编写一个打砖块克隆程序我想制作一个计时器为游戏的奖励即更长的桨更快的桨移动更大的球计时长达 20 秒我一直在尽我所能地在互联网上挖掘但找不到答案 import threading bonus
使用 Rails 中的表单批量更新对象

我有一个人物模型和一个报价模型每个人都可以有许多与其相关的引言而这些引言又可以与作者文本网址等内容相关联实际上实际上只有一个人拥有引用对象但所有人都可能拥有一个我正在尝试在报价上使用一个非常简单的批量适度工具例如用户可以
使用 Python 解析 SVG 文件路径

我正在开发一个机器人项目从 Android 运行设备拍摄一张照片然后发送到 cloudconvert org 将其转换为 SVG 然后所有 SVG 路径将被转换为 x y 坐标并串行发送到机器人手臂机器人手臂将绘制它们笔打开或关闭所
Fancybox 3：单击图像时禁用缩放

我使用 Fancybox 3 插件设置了一个简单的图像滑块 http fancyapps com fancybox 3 docs http fancyapps com fancybox 3 docs 在 Kirby CMS 中 https
R 中 0-1 之间的所有值组合总和为 1

简单的问题我试图获得 3 个数字 0 1 到 0 9 之间的权重之和为 1 的所有组合例子 c 0 20 0 20 0 60 c 0 35 0 15 0 50 权重相差 0 05 我已经尝试过这个 library gregmisc p
在片段中使用上下文的最佳方式

我在我的应用程序中使用片段我创建了一个名为 BaseFragment 的父类所有其他片段都扩展了此 Basefrgment 下面是此 Basefragment 的片段基础片段 java public class BaseFragmen
更新 Python Pickle 对象

我正在做一个机器学习项目为此我正在使用picklePython 的模块基本上我正在解析一个巨大的数据集这在一次执行中是不可能的这就是为什么我需要保存分类器对象并在下一次执行中更新它所以我的问题是当我使用新数据集再次运行程序时
将观察结果与重叠日期相结合

我的数据框中的每个观察结果都包含不同的日期之前和日期之后实例问题是每个 ID 的某些日期重叠例如在下表中 ID 1 和 4 包含重叠的日期值 ID before date after date 1 10 1 1996 12 1

将观察结果与重叠日期相结合

将观察结果与重叠日期相结合 的相关文章

随机推荐

热门标签

将观察结果与重叠日期相结合的相关文章