合并 pandas 数据框中两列的连续日期

2024-05-02

ID           Order_ID     statr_date            end_date                 Product    Sub_Product 
746              001      08-Oct-2019 0:00:00   *16-Nov-2019 0:00:00*     LPP       Abc
746              002      10-Oct-2019 0:00:00   02-Sep-2020 0:00:00       LPP       Abc
746              003      10-Oct-2019 0:00:00   11-Sep-2020 0:00:00       LPP       Abc
746              004      10-Oct-2019 0:00:00   08-Jan-2021 0:00:00       LPP       Abc
746              005    *16-Nov-2019 0:00:00*   17-Dec-2019 0:00:00       LPP       Abc

在上面的数据集中，我想搜索连续日期，例如从结束日期为 2019 年 11 月 16 日的第一行开始，查找按开始日期计算的连续日期并将它们组合起来。最终输出如下所示：

  ID         Order_ID     statr_date            end_date                 Product    Sub_Product 
746              001      08-Oct-2019 0:00:00   17-Dec-2019 0:00:00       LPP       Abc
746              002      10-Oct-2019 0:00:00   02-Sep-2020 0:00:00       LPP       Abc
746              003      10-Oct-2019 0:00:00   11-Sep-2020 0:00:00       LPP       Abc
746              004      10-Oct-2019 0:00:00   08-Jan-2021 0:00:00       LPP       Abc

我该如何去做呢？

您还可以尝试使用 for 循环和df.loc[]

for start in df.statr_date:
    for end in df.end_date:
        if start==end:
            df.loc[df[df.end_date.eq(end)].index, 'end_date'] = df.loc[df[df.statr_date.eq(start)].index, 'end_date']
            df = df.drop(df[df.statr_date.eq(start)].index)


Output:
    ID  Order_ID           statr_date             end_date Product Sub_Product
0  746         1  08-Oct-2019 0:00:00  17-Dec-2019 0:00:00     LPP         Abc
1  746         2  10-Oct-2019 0:00:00  02-Sep-2020 0:00:00     LPP         Abc
2  746         3  10-Oct-2019 0:00:00  11-Sep-2020 0:00:00     LPP         Abc
3  746         4  10-Oct-2019 0:00:00  08-Jan-2021 0:00:00     LPP         Abc

编辑：这种具有多个 for 循环的解决方案对于大数据来说性能不太友好

# Input Data
   ID  Order_ID           statr_date             end_date Product Sub_Product
0  746         1  08-Oct-2019 0:00:00  16-Nov-2019 0:00:00     LPP         Abc
1  746         2  10-Oct-2019 0:00:00  02-Sep-2020 0:00:00     LPP         Abc
2  746         3  10-Oct-2019 0:00:00  11-Sep-2020 0:00:00     LPP         Abc
3  746         4  10-Oct-2019 0:00:00  08-Jan-2021 0:00:00     LPP         Abc
4  746         5  16-Nov-2019 0:00:00  17-Dec-2019 0:00:00     LPP         Abc
5  756         6  11-Oct-2019 0:00:00  05-Sep-2020 0:00:00     LBB         Abc
6  756         7  10-Nov-2019 0:00:00  11-Dec-2020 0:00:00     LBB         Abc
7  766         8  22-Oct-2019 0:00:00  19-Nov-2019 0:00:00     LBB         Abc
8  766         9  19-Nov-2019 0:00:00  27-Dec-2019 0:00:00     LBB         Agn


g = df.groupby(['ID','Product', 'Sub_Product'])

dfs = []
for group in g.groups:
    df1 = g.get_group(group)
    for start in df1.statr_date:
        for end in df1.end_date:
            if start==end:
                df1.loc[df1[df1.end_date.eq(end)].index, 'end_date'] = df1.loc[df1[df1.statr_date.eq(start)].index, 'end_date']
                df1 = df1.drop(df1[df1.statr_date.eq(start)].index)
    
    dfs.append(df1)                

out = pd.concat(dfs).reset_index()
out

Output:

   index   ID  Order_ID           statr_date             end_date Product  \
0      0  746         1  08-Oct-2019 0:00:00  17-Dec-2019 0:00:00     LPP   
1      1  746         2  10-Oct-2019 0:00:00  02-Sep-2020 0:00:00     LPP   
2      2  746         3  10-Oct-2019 0:00:00  11-Sep-2020 0:00:00     LPP   
3      3  746         4  10-Oct-2019 0:00:00  08-Jan-2021 0:00:00     LPP   
4      5  756         6  11-Oct-2019 0:00:00  05-Sep-2020 0:00:00     LBB   
5      6  756         7  10-Nov-2019 0:00:00  11-Dec-2020 0:00:00     LBB   
6      7  766         8  22-Oct-2019 0:00:00  19-Nov-2019 0:00:00     LBB   
7      8  766         9  19-Nov-2019 0:00:00  27-Dec-2019 0:00:00     LBB

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

合并 pandas 数据框中两列的连续日期的相关文章

使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

为什么界面构建器不能使用 UIView 的具体通用子类？

首先这已被投票关闭作为为什么不能直接在 Interface Builder 中使用泛型的重复 TLDR 的答案是 IB 使用 Objective C 而 Objective C 不支持泛型无论如何没有办法指定泛型的特殊性即它使用
计算Mac中目录及其子目录的特定文件类型的数量

I use ls l filetype wc l但它只能查找当前目录中的文件我怎样才能计算子目录中具有特定扩展名的所有文件非常感谢你可以这样做find命令 find name filetype wc l
C# - 应用程序的参数

我怎样才能做到当程序名称末尾添加参数时它会执行特定的方法或其他什么另外这个有名字吗 Example 程序 exe i 我也见过 1 这些被称为命令行参数有一个MSDN 上的很好的教程 http msdn microsoft com e
跨多个表的 JPA 本机查询

我将以下内容定义为存储库 dispenseRepository 中的本机查询 Query value SELECT p c s d from patient p consult c script s dispense d where p p
REST api：在一次获取中请求多个资源[重复]

这个问题在这里已经有答案了我正在尝试设计一个 RESTful API 用户可以在单个 GET 请求中获取单个产品或产品列表每个产品都有一个唯一的 ID 单个产品 URL 非常简单 http mycompany com api v1 pr
R：将多列转换为单列[重复]

这个问题在这里已经有答案了我有一个看起来像这样的数据框 ID week1 t week1 a week2 t week2 a 1 12 22 17 4 1 15 32 18 5 1 24 12 29 6 2 45 11
Git 注释详细信息

我读了this http git scm com 2010 08 25 notes html and this https github com blog 707 git notes display但仍然认为它们晦涩难懂目前为止了解到创
类型不包含“GetProperties”的定义

我正在将库项目迁移到 net 标准当我尝试使用System Reflection调用APIType GetProperties 类型不包含 GetProperties 的定义这是我的project json version 1 0 0
需要有关上下文菜单的建议

我有一个 XML 布局其中有两个编辑文本字段一个用于标题另一个用于故事当用户在这些文本字段中输入数据并按后退按钮时该条目将作为标题集保存在列表视图中列表视图出现在 A1 活动中现在A1扩展了Activity 每当长按列
使用堆属性按排序顺序打印树 (Cormen)

我对算法理论来自 Cormen 感到耳目一新二进制尝试一章中有一个练习要求 min heap 属性可以用来打印 n 节点的键吗树在 O n 时间内排序展示如何做或解释为什么不做我想是的这是可能的在最小堆中节点中的元素小于
cesium：如何在Cesium中设置不同形状的Z-index？

如何在Cesium中设置不同形状的Z index 请参阅下面的屏幕截图我希望圆柱体内的广告牌图标显示在圆柱体上提前致谢这并不容易因为您的圆柱体是实际的 3D 体积并且您的广告牌位于其中 3D 渲染引擎中没有 CSS 样式的 Z 索
如何以编程方式证明“六度分离”概念？

我有一个包含 2000 万用户以及这些人之间的联系的数据库如何证明六度分离的概念以最有效的方式在编程中链接到有关六度分离的文章 http en wikipedia org wiki Six degrees of separation
如何从 ModelState 键中删除前缀？

例如有一个Web Api操作方法 public HttpMessageResponse Post UserDto userDto if this ModelState IsValid return this Request CreateE
当替换器使用变量时，如何调用 Regex::replace_all？

对于下面的代码我尝试输出输入单词后跟随机字符串第一个函数可以编译但我不想要它因为它不使用随机字符串第二个函数会产生编译器错误我如何解决它 use regex Regex fn main let cd rust ok but i
Python 中的数字列表求和[重复]

这个问题在这里已经有答案了给定一个数字列表例如 1 2 3 4 5 我如何计算它们的总和 1 2 3 4 5 我如何计算它们的成对平均值 1 2 2 2 3 2 3 4 2 4 5 2 问题一要对数字列表求和请使用sum https
任务返回类型出错 - “x 有错误的返回类型”

我有一行代码即 bool stop await Task
如何在 RxJS 中通过 ID 去抖

我的问题是下一个我想取消我的应用程序的点赞功能我使用操作在我的应用程序中进行更改例如 dispatch likePost 1 gt dispatch type LIKE POST id 1 给出下一个例子我在时间 0 发送一个操作
RabbitMQ Java 客户端自动重新连接

当我的应用程序失去与 RabbitMQ 的连接时我将其连接工厂设置为自动尝试并重新连接 ConnectionFactory factory new ConnectionFactory factory setUsername usernam
为什么调用 parseInt 时需要使用基数参数？

基数实际上意味着什么为什么我们需要它 parseInt 10 radixValue 您可能并不总是希望将整数解析为以 10 为基数的数字因此提供基数允许您指定其他数字系统基数是单个数字的值的数量十六进制为 16 八进制为 8 二进制
合并 pandas 数据框中两列的连续日期

ID Order ID statr date end date Product Sub Product 746 001 08 Oct 2019 0 00 00 16 Nov 2019 0 00 00 LPP Abc 746 002 10 O

合并 pandas 数据框中两列的连续日期

合并 pandas 数据框中两列的连续日期 的相关文章

随机推荐

热门标签

合并 pandas 数据框中两列的连续日期的相关文章