在python中查找日期范围重叠

2024-04-15

我试图找到一种更有效的方法来根据特定列（id）在数据框中查找重叠的数据范围（每行提供的开始/结束日期）。数据框按“来自”列排序。我认为有一种方法可以避免双重apply像我一样运行：

import pandas as pd
from datetime import datetime

df = pd.DataFrame(columns=['id','from','to'], index=range(5), \
                  data=[[878,'2006-01-01','2007-10-01'],
                        [878,'2007-10-02','2008-12-01'],
                        [878,'2008-12-02','2010-04-03'],
                        [879,'2010-04-04','2199-05-11'],
                        [879,'2016-05-12','2199-12-31']])

df['from'] = pd.to_datetime(df['from'])
df['to'] = pd.to_datetime(df['to'])


    id  from        to
0   878 2006-01-01  2007-10-01
1   878 2007-10-02  2008-12-01
2   878 2008-12-02  2010-04-03
3   879 2010-04-04  2199-05-11
4   879 2016-05-12  2199-12-31

我使用“apply”函数在所有组上循环，并且在每个组内，我每行使用“apply”：

def check_date_by_id(df):
    
    df['prevFrom'] = df['from'].shift()
    df['prevTo'] = df['to'].shift()
    
    def check_date_by_row(x):
        
        if pd.isnull(x.prevFrom) or pd.isnull(x.prevTo):
            x['overlap'] = False
            return x
        
        latest_start = max(x['from'], x.prevFrom)
        earliest_end = min(x['to'], x.prevTo)
        x['overlap'] = int((earliest_end - latest_start).days) + 1 > 0
        return x
    
    return df.apply(check_date_by_row, axis=1).drop(['prevFrom','prevTo'], axis=1)

df.groupby('id').apply(check_date_by_id)

    id  from        to          overlap
0   878 2006-01-01  2007-10-01  False
1   878 2007-10-02  2008-12-01  False
2   878 2008-12-02  2010-04-03  False
3   879 2010-04-04  2199-05-11  False
4   879 2016-05-12  2199-12-31  True

我的代码的灵感来自以下链接：

python中有效的日期范围重叠计算？ https://stackoverflow.com/questions/9044084/efficient-date-range-overlap-calculation-in-python
如何在Python中找到范围重叠？ https://stackoverflow.com/questions/6821156/how-to-find-range-overlap-in-python

你可以直接改变to列并执行日期时间的直接减法。

df['overlap'] = (df['to'].shift()-df['from']) > timedelta(0)

在分组时应用此id可能看起来像

df['overlap'] = (df.groupby('id')
                   .apply(lambda x: (x['to'].shift() - x['from']) > timedelta(0))
                   .reset_index(level=0, drop=True))

Demo

>>> df
    id       from         to
0  878 2006-01-01 2007-10-01
1  878 2007-10-02 2008-12-01
2  878 2008-12-02 2010-04-03
3  879 2010-04-04 2199-05-11
4  879 2016-05-12 2199-12-31

>>> df['overlap'] = (df.groupby('id')
                       .apply(lambda x: (x['to'].shift() - x['from']) > timedelta(0))
                       .reset_index(level=0, drop=True))

>>> df
    id       from         to overlap
0  878 2006-01-01 2007-10-01   False
1  878 2007-10-02 2008-12-01   False
2  878 2008-12-02 2010-04-03   False
3  879 2010-04-04 2199-05-11   False
4  879 2016-05-12 2199-12-31    True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

TimeSeries

在python中查找日期范围重叠的相关文章

Windows 7 64位 libsvm 和 python 错误：找不到函数“svm_get_sv_indices”

我正在使用 Windows 7 64 位我已经安装了 Python 2 7 3 32 位版本和 libsvm 3 13 当我尝试启动导入 svmutil 的简单 py 文件时出现错误 C libsvm 3 13 python gt p
Python 中的密码子生成

我有这段代码用于将 DNA 字符串转换为密码子列表然后将此列表转换为具有各自氨基酸的字符串然而当我运行代码并且 DNA 字符串以一对核苷酸例如 CT 而不是三联体结尾时代码不会生成氨基酸序列正如您在输出中看到的 from co
ValueError：无法将 DatetimeIndex 转换为 dtype datetime64[us]

我正在尝试为 S P 500 ETF 创建一个包含 30 分钟数据的 PostgreSQL 表 spy30new 用于测试新插入的数据来自具有 15 分钟数据的多个股票的表全部 15 个 all15 在 dt 时间戳和 instr 股
AttributeError：模块“tensorflow.python.summary.summary”没有属性“FileWriter”

我收到此错误尽管我到处都看过file writer tf summary FileWriter path to logs sess graph 被提到为正确的实施this https github com tensorflow tenso
Flask-admin 内联建模传递表单参数会抛出 AttributeError

Flask 开发者们大家好在 Flask admin 中我目前尝试在模型视图中实现内联模型编辑在模型方面我有一个简单的树结构表示一组内容页面每个节点都有多个子节点以及与其关联的多个内容数据模型模型被命名为ContentNode
调整pandas read_sql_query NULL值处理？

当我做 from sqlalchemy import create engine import pandas as pd engine create engine sqlite conn engine connect conn execut
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
Python：像石英一样的事件调度程序[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
如何处理 ValueError：索引包含使用 df.pivot 或 pd.pivot_table 的重复条目？

我有一张显示累计小时数的表格 dataframe values 不同的专家 ID 已完成一系列四项任务 Task1 Tas2 Task3 Tas4 像这样 Input ID Task1 Task2 Task3 Task4 0 10 1 3
ValueError：设置 random_state 无效，因为 shuffle 为 False。您应该将 random_state 保留为默认值（无），或设置 shuffle=True

当我尝试在 pycaret 中训练某些内容时我收到此错误消息 ValueError Setting a random state has no effect since shuffle is False You should leave
将 scipy 稀疏矩阵的几行采样到另一个中

如何对 scipy 稀疏矩阵的某些行进行采样并从这些采样的行中形成一个新的 scipy 稀疏矩阵例如如果我有一个 10 行的 scipy 稀疏矩阵 A 并且我想创建一个新的 scipy 稀疏矩阵 B 其中 A 的第 1 3 4 行该
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
加入语音频道（discord.py）

当我尝试让我的机器人加入我的语音频道时出现以下错误 await client join voice channel voice channel 产生错误的行 Traceback most recent call last File usr
Django中的自动递增值

我在 django 中有一个表并尝试自动递增它的序列号在自定义模板中 for 循环用于变量自定义模板 for i in getodeskview tr td 1 td td i odesk id td td i hours td td
pandas - 组合行的字符串

我有一个像这样的数据框 id text 1 DM HTN Enlarged prostate 2 hypertensive and on regular treatment 2 LBP 3 DM HTN Enlarged prostate
Python 单元测试：Nose 失败时重试？

我有一个随机失败的测试我想让它在发送错误消息之前重试多次我将 python 与 Nose 一起使用我写了以下内容但不幸的是即使使用 try except 处理当第一次尝试测试失败时 Nose 也会返回错误 def test so
Django 多个外键，相同的相关名称

我想创建一个模型 1 其中具有相同其他模型 2 的多个外键我希望这些外键具有相同的related name因为每个外键将指向 model 2 的不同实例因为我需要所有外键的一个反向关系也许一个例子会更明确 class Parent M

随机推荐

查找字符串的*最*常见前缀 - 更好的方法吗？

我有一个钥匙列表 foo a foo b foo c fnord 这里所有类似的解决方案都假设您没有fnord在你的文字中我有这个代码可以完成这项工作 def detect prefix keys PCT 0 70 cutof pre l
获取“/”字符后的字符串

我想在 PostgreSQL SELECT 查询中提取字符后面的字符串字段名称是source path 表名是movies history 数据示例 source path 的值 184738 file1 mov 194839 file
将 MATLAB 绘图转换为图像

我生成了一个类似的情节 figure hold axis 0 10 0 10 fill 1 1 5 5 5 1 1 5 b 现在我想将此图作为矩阵以便我可以用高斯过滤博客谷歌搜索我发现了这个线程将绘图光栅化为图像 http www ma
如何在 Struts2 中检查 s:if 中的字符串不等式

我在用
android OpenGL ES简单图块生成器性能问题

遵循这个问题老式 2D 类似塞尔达传说游戏的最佳方法 https stackoverflow com questions 2125354 best approach for oldschool 2d zelda like game 感谢之
在 log(n) 时间内查找排序数组中至少出现 k 次的元素

给定一个由 n 个元素和一个数字 k 组成的排序数组是否有可能在 log n 时间内找到出现超过 k 次的元素如果有多个数字出现超过 k 次则其中任何一个都可以接受如果是怎么办编辑我能够在线性时间内解决这个问题并且我很高兴在
如何从命令行列出已安装的 MSI？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我们最近将 Windows 软件包从 RPM cygwin 切换到 MSI wix 拥有原生包装是一个非常受欢迎的变化我们打算坚持下去然而 MSI
使用 JQuery 将事件处理程序添加到 iframe

我想将 keydown 事件处理程序分配给 iframe 类似于纯JS的东西 document getElementById iframe id contentWindow addEventListener keydown funcName
生成加权随机数

我正在尝试设计一种好的方法从一系列可能的数字中选择一个随机数其中该范围内的每个数字都被赋予一个权重简单地说给定数字范围 0 1 2 选择一个数字其中 0 有 80 的概率被选中 1 有 10 的概率 2 有 10 的概率自从我
Angular - Google 未定义？

你好我正在尝试实施google maps api in angular 这很简单angularjs但我不知道什么不起作用我有一个简单的应用程序它显示产品及其位置单击位置后该位置会显示在地图上但我正在使用的购物地图google m
R 中曲线下增量面积 (iAUC)

曲线下面积可以使用以下公式计算trapz的功能pracmaR iAUC 中的包在许多情况下更加准确特别是在生物学中然而据我所知没有 R 函数可以计算这个陷阱函数如下 Example a lt c 1 4 5 6 b lt c 2 4
如何使用 apache 设置 mpeg dash 服务器？

我想在 ubuntu 10 04 上设置本地 mpeg dash 服务器那么分别安装apache和mpeg dash编码器后该怎么办呢 thanks 只需将 MPD 和破折号段放入 apache htdocs 文件夹即可如果您的 MPD
Python 中使用 lxml 进行 Schematron 验证：如何检索验证错误？

我正在尝试使用 lxml 进行一些 Schematron 验证对于我正在处理的特定应用程序重要的是报告任何未通过验证的测试这lxml文档 http lxml de validation html提到了存在validation repo
ADB Shell 输入事件

之间的基本区别是什么adb shell input keyevent and adb shell sendevent 我应该使用哪一个来输入字符我们传递给这两个命令的键码是否相同 By adb shell input keyevent 或
如何防止无名结构\联合？

我正在构建一个具有矩阵数据联合的类但是只有当我没有结构联合的名称时我才能对其进行编译但是如果警告级别更高视觉工作室为四级我会发出警告说 warning C4201 nonstandard extension used nam
帮助我验证 url 是否应该接受 .me 域

var tomatch http A Za z0 9 3 A Za z 3 if tomatch test theurl window alert URL OK return true 我尝试了这个正则表达式代码来验证 url 当我尝试验证
这段代码是否受 C 标准保证？

我读过如果你声明两个这样的结构 struct Node int a b c struct DerivedNode struct Node base int d e f 然后你可以像这样使用指向它们的指针 struct DerivedNod
tf.sign 如何与反向传播一起工作？

我从 TensorFlow 开始尝试创建一个二进制网络更具体地说我正在寻找一个哈希网络它将图像编码为大小为 n 的二进制向量所以我有一个经典的网络我对softmax之前的最后一层进行二值化 TensorFlow 提供了一个tf
WCF/Silverlight：为什么使用 ChannelFactory 而不是客户端？

在继承的项目中使用 ChannelFactory 而不是 Client 进行 WCF 调用为什么要这么做另外缓存 ChannelFactory CreateChannel 调用的结果是否安全还是应该每次创建一个新的结果创建 WC
在python中查找日期范围重叠

我试图找到一种更有效的方法来根据特定列 id 在数据框中查找重叠的数据范围每行提供的开始结束日期数据框按来自列排序我认为有一种方法可以避免双重apply像我一样运行 import pandas as pd from dateti

在python中查找日期范围重叠

在python中查找日期范围重叠 的相关文章

随机推荐

热门标签

在python中查找日期范围重叠的相关文章