如何计算数据框中分组行集中先前的差异

2023-12-21

我正在寻求有关 Pandas 中同时分组/行间差异问题的帮助。对于 R，问题与此处所述完全相同：如何计算每个组（学生合同）的日期时间之间的时间差？ https://stackoverflow.com/questions/18092072/how-to-calculate-difference-between-submissions-in-r

我有这样的数据：

#   USER_ID CONTRACT_REF SUBMISSION_DATE  
1        1        A        20/6 01:00   
2        1        A        20/6 02:00   
3        1        B        20/6 03:00   
4        4        A        20/6 04:00   
5        5        A        20/6 05:00   
6        5        B        20/6 06:00   
7        7        A        20/6 07:00   
8        7        B        20/6 08:00   
9        7        B        20/6 09:30   
10       7        B        20/6 10:00

我想计算时差从上一次提交的对于每个唯一的 USER_ID - CONTRACT_REF 对。

注意：每个 USER_ID - CONTRACT_REF 对首次出现时必须为零（或空）。

所以输出应该如下所示：

#   USER_ID CONTRACT_REF SUBMISSION_DATE   TIME_DIFFERENCE
1        1        A        20/6 01:00             0
2        1        A        20/6 02:00             1
3        1        B        20/6 03:00             0
4        4        A        20/6 04:00             0
5        5        A        20/6 05:00             0          
6        5        B        20/6 06:00             0
7        7        A        20/6 07:00             0
8        7        A        20/6 08:00             1
9        7        A        20/6 09:30             1.5
10       7        B        20/6 10:00             0

我目前正从 R 转向 Pandas，虽然我发现语法令人耳目一新，但当涉及到数据帧上的复杂函数时，我有点困惑。

预先感谢您的任何提示！

[注意：您的数据似乎与您想要的输出不匹配；没有 CONTRACT_REFCs 在第二个，甚至在你的输出中，我不明白为什么5, Brow 是 1 而不是 0。我假设这些是您的错误。由于您没有发表评论，我将使用输出中的数据，因为它会导致一个更有趣的专栏。]

我可能会做类似的事情

df["SUBMISSION_DATE"] = pd.to_datetime(df["SUBMISSION_DATE"],dayfirst=True)

gs = df.groupby(["USER_ID", "CONTRACT_REF"])["SUBMISSION_DATE"]
df["TIME_DIFF"] = gs.diff().fillna(0) / pd.datetools.timedelta(hours=1)

产生

>>> df
    #  USER_ID CONTRACT_REF     SUBMISSION_DATE  TIME_DIFF
0   1        1            A 2014-06-20 01:00:00        0.0
1   2        1            A 2014-06-20 02:00:00        1.0
2   3        1            B 2014-06-20 03:00:00        0.0
3   4        4            A 2014-06-20 04:00:00        0.0
4   5        5            A 2014-06-20 05:00:00        0.0
5   6        5            B 2014-06-20 06:00:00        0.0
6   7        7            A 2014-06-20 07:00:00        0.0
7   8        7            A 2014-06-20 08:00:00        1.0
8   9        7            A 2014-06-20 09:30:00        1.5
9  10        7            B 2014-06-20 10:00:00        0.0

[10 rows x 5 columns]

一些解释：从像这样的数据框开始

>>> df
    #  USER_ID CONTRACT_REF SUBMISSION_DATE
0   1        1            A      20/6 01:00
1   2        1            A      20/6 02:00
2   3        1            B      20/6 03:00
3   4        4            A      20/6 04:00
4   5        5            A      20/6 05:00
5   6        5            B      20/6 06:00
6   7        7            A      20/6 07:00
7   8        7            A      20/6 08:00
8   9        7            A      20/6 09:30
9  10        7            B      20/6 10:00

[10 rows x 4 columns]

我们想把SUBMISSION_DATE从字符串到实际日期对象的列：

>>> df["SUBMISSION_DATE"] = pd.to_datetime(df["SUBMISSION_DATE"],dayfirst=True)
>>> df
    #  USER_ID CONTRACT_REF     SUBMISSION_DATE
0   1        1            A 2014-06-20 01:00:00
1   2        1            A 2014-06-20 02:00:00
2   3        1            B 2014-06-20 03:00:00
3   4        4            A 2014-06-20 04:00:00
4   5        5            A 2014-06-20 05:00:00
5   6        5            B 2014-06-20 06:00:00
6   7        7            A 2014-06-20 07:00:00
7   8        7            A 2014-06-20 08:00:00
8   9        7            A 2014-06-20 09:30:00
9  10        7            B 2014-06-20 10:00:00

[10 rows x 4 columns]

然后我们可以分组USER_ID and CONTRACT_REF，然后选择SUBMISSION_DATE column:

>>> gs = df.groupby(["USER_ID", "CONTRACT_REF"])["SUBMISSION_DATE"]
>>> gs
<pandas.core.groupby.SeriesGroupBy object at 0xa7af08c>

然后我们可以得到每组的差异：

>>> gs.diff()
0        NaT
1   01:00:00
2        NaT
3        NaT
4        NaT
5        NaT
6        NaT
7   01:00:00
8   01:30:00
9        NaT
dtype: timedelta64[ns]

NaT，Not-a-Time，是时间上的等价物NaN。我们可以用 0 填充它们：

>>> gs.diff().fillna(0)
0   00:00:00
1   01:00:00
2   00:00:00
3   00:00:00
4   00:00:00
5   00:00:00
6   00:00:00
7   01:00:00
8   01:30:00
9   00:00:00
dtype: timedelta64[ns]

由于您希望以小时为单位进行测量，因此我们可以除以 1 小时的 timedelta：

>>> gs.diff().fillna(0) / pd.datetools.timedelta(hours=1)
0    0.0
1    1.0
2    0.0
3    0.0
4    0.0
5    0.0
6    0.0
7    1.0
8    1.5
9    0.0
dtype: float64

将其分配给框架：

>>> df["TIME_DIFF"] = gs.diff().fillna(0) / pd.datetools.timedelta(hours=1)

我们就完成了：

>>> df
    #  USER_ID CONTRACT_REF     SUBMISSION_DATE  TIME_DIFF
0   1        1            A 2014-06-20 01:00:00        0.0
1   2        1            A 2014-06-20 02:00:00        1.0
2   3        1            B 2014-06-20 03:00:00        0.0
3   4        4            A 2014-06-20 04:00:00        0.0
4   5        5            A 2014-06-20 05:00:00        0.0
5   6        5            B 2014-06-20 06:00:00        0.0
6   7        7            A 2014-06-20 07:00:00        0.0
7   8        7            A 2014-06-20 08:00:00        1.0
8   9        7            A 2014-06-20 09:30:00        1.5
9  10        7            B 2014-06-20 10:00:00        0.0

[10 rows x 5 columns]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何计算数据框中分组行集中先前的差异的相关文章

Python 将列表中的字符串转换为数字

我遇到了以下错误消息以 10 为基数的 int 的文字无效 2 2 外部用单引号括起来内部用双引号括起来该数据位于primes列出使用print primes 0 样本数据在primes list 2 3 5 7 The primes
对 Python DataFrame 进行子集化

我正在从 R 过渡到 Python 我刚刚开始使用 Pandas 我有一个可以很好地子集化的 R 代码 k1 lt subset data Product p id Month lt mn Year yr select c Time Pro
在 python + Flask + Gunicorn + nginx + Compute Engine 应用程序中从 Google Cloud Storage 读取文件失败

在 python Flask Gunicorn nginx Compute Engine 应用程序中读取从 Google Cloud Storage 下载的文件失败代码链接 https github com samuq CE test h
Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
WTForms 中的小数字段舍入

我有一个包含价格小数字段的表单如下所示 from flask ext wtf import Form import wtforms from wtforms validators import DataRequired from deci
Weasyprint 在调用 write_pdf 时获得未定义的属性：“AttributeError：‘PosixPath’对象没有属性‘read_text’”

我正在 ubuntu 18 04 上运行 weasyprint 项目并尝试创建一个 pdf 当我尝试设置页脚图像时问题就开始了我正在 python 3 6 7 上运行这是我调用 weasyprint 的代码 import sys i
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
字母表中的加密和解密 - Python GCSE

我目前正在尝试为学校编写一个程序以便加密和解密输入的消息我需要加密或解密的消息仅在字母表中没有其他符号或密钥例如使用消息车加密输入的偏移量为 5 我希望它输出 afs 有人可以帮忙吗这是我目前的代码 def find offse
如何抑制 pyinstaller 生成的可执行文件窗口中的所有警告

我已经使用 pyinstaller 从 python 文件生成了可执行文件该程序按其应有的方式工作但在我想隐藏的窗口中出现了一条警告消息当 python 文件在 IDE 中运行时以下行会抑制所有警告消息 warnings filte
不重复的Python组合

我有一个数字列表我想从中进行组合如果我有清单 t 2 2 2 2 4 c list itertools combinations t 4 结果是 2 2 2 2 2 2 2 4 2 2 2 4 2 2 2 4 2 2 2 4 但我想得到
对于 pygtk 应用程序来说，什么是好的嵌入式浏览器？

我计划在我的 pygtk 应用程序中使用嵌入式浏览器并且我正在 gtkmozembed 和 pywebkitgtk 之间进行辩论两者之间有什么引人注目的区别吗还有我不知道的第三种选择吗应该注意的是我不会使用它来访问网络上的内容我
为什么全新安装后会有pip和conda包？

All Windows 10 64 位 d l Anaconda 2 5 0 与 Python3 64 位并安装全新安装后我输入conda list 并且在软件包中我看到重复像 jupyter 1 0 0 py35 1 jupyte
如何替换被测模块的文件访问引用

pyfakefs https code google com p pyfakefs 听起来非常有用它最初是作为核心 Python 模块的一个适度的假实现来开发的以支持中等复杂的文件系统交互并于 2006 年 9 月在 Google
import numpy 和 import numpy as np 之间的区别

我明白如果可能的话应该使用 import numpy as np 这有助于避免由于命名空间引起的任何冲突但我注意到虽然下面的命令有效 import numpy f2py as myf2py 以下不 import numpy as np
Python 类方法的示例用例是什么？

我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂我正在寻找 Pytho
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
在字典理解中为 locals() 添加下标失败并出现 KeyError [重复]

这个问题在这里已经有答案了我对 Python 的奇怪行为感到困惑locals 基本上我想从字典中获取一个项目locals 在字典理解中但它失败了这是一个非常基本的事情所以 gt gt gt foo 123 gt gt gt bar
使用 Pandas 和 Group By 绘制堆叠直方图

我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图我希望每个图有两个堆叠的直方图每个性别一个这是文档中的堆叠直方图如果存在
在 python 中使用递归替代 len()

作为 CS1301 问题的一部分我正在尝试使用递归编写一个函数该函数将执行与 len 完全相同的操作但是我有两个问题我正在使用全局变量但我在课程中还没有学到这一点 cs1301 自动评分器告诉我我的函数返回 26 而不是 13

随机推荐

在 Android 上使用 Google Exoplayer 播放 HLS 流时出错

Google Exoplayer 是否 https github com google ExoPlayer https github com google ExoPlayer 支持Http直播了吗 Android 一般支持它但当我尝试在
如何在 SQLite 中显示 SQL 错误？

在 PHP 中使用 SQLite 因此使用 PDO 我有以下代码 try db new PDO sqlite C Program Files Spiceworks db spiceworks prod db echo Done br b q
预测序列中的下一个数字 Keras - Python

我是 python 和神经网络的新手我有一个用 Keras 编写的简单网络可以预测线性序列中的下一个数字 import numpy as np from keras models import Sequential from keras
如何在 WebSphere Application Server 6.0.2.23 中重命名应用程序服务器

我们正在重新调整运行 WebSphere 6 0 2 23 的应用程序服务器的用途我想重命名各种应用服务器以更好地反映其新角色如何重命名应用程序服务器看起来 wsadmin 可以做到这一点但我正在努力处理对象层次结构 IBM 示例脚
TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？

以下问题中引用的所有链接描述均来自 2021 年 5 月 31 日我按照以下版本训练了一个深度 Q 网络TF 特工教程 https www tensorflow org agents tutorials 1 dqn tutorial关于自
如何将屏幕坐标转换为缩放 SVG 中的文档空间？

我使用 Keith Wood 的 svg jquery 插件而不是 HTML5 画布我像这样定义我的 svg 图像来缩放我的 svg 三角形图像以适合其 div 容器
有没有办法从 Kafka 主题获取最后一条消息？

我有一个具有多个分区的 Kafka 主题我想知道 Java 中是否有一种方法可以获取该主题的最后一条消息我不关心分区我只想获取最新消息我努力了 KafkaListener但它仅在主题更新时才获取消息如果应用程序打开后没有发布任何内
如何有效地测试 Windows API？

我仍然无法向自己证明 TDD 的合理性正如我在其他问题中提到的我编写的 90 的代码绝对不执行任何操作调用一些Windows API函数并打印出从所述函数返回的数据花在 TDD 下处理代码所需的假数据上的时间是令人难以置信的我花
如何将超类对象值复制到子类对象值？

我想将超类对象获取器复制到子类对象设置器但我怎样才能轻松做到这一点我正在寻找类似克隆的东西你能帮我找到它吗一个简单的代码超级类 public class SuperClass1 private String name privat
如何自定义Maven发布插件的标签格式？

在我们的 SVN 存储库中我们存储如下标签 trunk project a project b branches project a branch x branch y project b tags project a 1 0 1 1 p
是否应该将 coroutineScope 作为函数参数传递？

我正在尝试协程并且不确定是否将 coroutineScope 传递给普通的 Kotlin UseCase 这种方法会造成内存泄漏吗假设我们正在虚拟机中初始化我们的用例并尝试通过视图模型范围 class UploadUseCase pri
React Native 持久滚动条

仔细阅读后React Native 文档 http facebook github io react native docs scrollview html props我似乎不知道如何制作
XSLT 合并和匹配值

我有一个项目似乎已经超出了我的舒适区并且需要一些高级 XSL 处理我有以下两个示例 XML 文档 Doc1
模板参数遮蔽在 VS2005 中如何工作？

在 GCC 中这段代码无法编译因为 T 被隐藏但是在 VS2005 中它编译时没有警告那么 VS 编译器做了什么假设 template
为什么 UITableViewCell 选择时所有背景都会消失？

我当前项目的 UITableViewCell 行为让我感到困惑我有一个相当简单的 UITableViewCell 子类它向基本视图添加了一些额外的元素通过 self contentView addSubview 并在元素上设置背景颜色
如何将查询返回的列中的所有记录连接到 T-SQL 中的一个 varchar 字符串中？

查询 SELECT FUNCTION VIEW PROCEDURE 返回一列 varchar 记录我需要将它们全部连接到一个 varchar 行中我如何在 T SQL 中最好地做到这一点 declare s varchar 8000 s
术语“Connect-AzureAD”未被识别为 cmdlet 的名称

从 Azure AD 中的 C 应用程序运行 powershell 脚本添加了以下 DLL 参考系统管理自动化 Microsoft Online Administration Automation PSModule Resource
将 cookie 从 HttpURLConnection (java.net.CookieManager) 传递到 WebView (android.webkit.CookieManager)

我已经看到了关于这应该如何与旧版本一起使用的答案DefaultHttpClient但没有一个很好的例子HttpURLConnection http developer android com reference java net HttpU
Typesafe/Hocon 配置：变量替换：参考路径

我们有一个项目其中包含使用 hocon configs 构建的巨大配置文件有意图使用变量来创建template section并根据一些选项在模板中设置一些值问题是在使用时variables在此配置中我必须始终引用绝对路径是否可以
如何计算数据框中分组行集中先前的差异

我正在寻求有关 Pandas 中同时分组行间差异问题的帮助对于 R 问题与此处所述完全相同如何计算每个组学生合同的日期时间之间的时间差 https stackoverflow com questions 18092072 how

如何计算数据框中分组行集中先前的差异

如何计算数据框中分组行集中先前的差异 的相关文章

随机推荐

热门标签

如何计算数据框中分组行集中先前的差异的相关文章