Pandas DataFrame：如何计算组中第一行和最后一行的差异？

2024-05-10

这是我的熊猫数据框：

import pandas as pd
import numpy as np

data = {"column1": [338, 519, 871, 1731, 2693, 2963, 3379, 3789, 3910, 4109, 4307, 4800, 4912, 5111, 5341, 5820, 6003, ...],
         "column2": [NaN, 1, 1, 1, 1, NaN, NaN, 2, 2, NaN, NaN, 3, 3, 3, 3, 3, NaN, NaN], ...}

df = pd.DataFrame(data)
df
>>>      column1  column2
0        338      NaN
1        519      1.0
2        871      1.0
3       1731      1.0
4       2693      1.0
5       2963      NaN
6       3379      NaN
7       3789      2.0
8       3910      2.0
9       4109      NaN
10      4307      NaN
11      4800      3.0
12      4912      3.0
13      5111      3.0
14      5341      3.0
15      5820      3.0
16      6003      NaN
17      ....      ....

中的整数column2表示“组”column1，例如第 1-4 行是组“1”，第 7-8 行是组“2”，第 11-15 行是组“3”，依此类推。

我想计算每组中第一行和最后一行之间的差异。生成的数据框将如下所示：

df
>>>      column1  column2  column3
0        338      NaN      NaN
1        519      1.0      2174
2        871      1.0      2174
3       1731      1.0      2174
4       2693      1.0      2174
5       2963      NaN      NaN
6       3379      NaN      NaN
7       3789      2.0      121
8       3910      2.0      121
9       4109      NaN      NaN
10      4307      NaN      NaN
11      4800      3.0      1020
12      4912      3.0      1020
13      5111      3.0      1020
14      5341      3.0      1020
15      5820      3.0      1020
16      6003      NaN      NaN
17      ....      ....     ...

because:

2693-519 = 2174
3910-3789 = 121
5820-4800 = 1020

什么是“熊猫方式”来计算column3？不知何故，人们必须迭代column3，寻找连续的值组，使得df.column2 != "NaN".

编辑：我意识到我的例子可能会导致读者假设其中的值column1只会增加。其实还有区间、柱子intervals

df = pd.DataFrame(data)
df
>>>    interval      column1  column2
0      interval1     338      NaN
1      interval1     519      1.0
2      interval1     871      1.0
3      interval1     1731      1.0
4      interval1     2693      1.0
5      interval1     2963      NaN
6      interval1     3379      NaN
7      interval1     3789      2.0
8      interval1     3910      2.0
9      interval1     4109      NaN
10     interval1     4307      NaN
11     interval1     4800      3.0
12     interval1     4912      3.0
13     interval1     5111      3.0
14     interval1     5341      3.0
15     interval1     5820      3.0
16     interval1     6003      NaN
17      ....      ....
18     interval2     12        13
19     interval2     115       13
20     interval2     275       NaN
....

您可以先过滤，然后获取第一个和最后一个值的差异transform http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.transform.html:

df['col3'] = df[df.column2.notnull()]
                  .groupby('column2')['column1']
                  .transform(lambda x: x.iat[-1] - x.iat[0])
print (df)
    column1  column2    col3
0       338      NaN     NaN
1       519      1.0  2174.0
2       871      1.0  2174.0
3      1731      1.0  2174.0
4      2693      1.0  2174.0
5      2963      NaN     NaN
6      3379      NaN     NaN
7      3789      2.0   121.0
8      3910      2.0   121.0
9      4109      NaN     NaN
10     4307      NaN     NaN
11     4800      3.0  1020.0
12     4912      3.0  1020.0
13     5111      3.0  1020.0
14     5341      3.0  1020.0
15     5820      3.0  1020.0
16     6003      NaN     NaN

按您的新数据编辑1：

df['col3'] = df[df.column2.notnull()]
                  .groupby('column2')['column1']
                  .transform(lambda x: x.iat[-1] - x.iat[0])
print (df)
     interval  column1  column2    col3
0   interval1      338      NaN     NaN
1   interval1      519      1.0  2174.0
2   interval1      871      1.0  2174.0
3   interval1     1731      1.0  2174.0
4   interval1     2693      1.0  2174.0
5   interval1     2963      NaN     NaN
6   interval1     3379      NaN     NaN
7   interval1     3789      2.0   121.0
8   interval1     3910      2.0   121.0
9   interval1     4109      NaN     NaN
10  interval1     4307      NaN     NaN
11  interval1     4800      3.0  1020.0
12  interval1     4912      3.0  1020.0
13  interval1     5111      3.0  1020.0
14  interval1     5341      3.0  1020.0
15  interval1     5820      3.0  1020.0
16  interval1     6003      NaN     NaN
18  interval2       12     13.0   103.0
19  interval2      115     13.0   103.0
20  interval2      275      NaN     NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas DataFrame：如何计算组中第一行和最后一行的差异？的相关文章

获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
Python：随时接受用户输入

我正在创建一个可以做很多事情的单元其中之一是计算机器的周期虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中我将进行计数只需一个简单的操作 counter 1 print counter 跟踪我处于
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
使用循环将对象添加到列表（python）

我正在尝试使用 while 循环将对象添加到列表中基本上这就是我想做的 class x pass choice raw input pick what you want to do while choice 0 if choice 1 E
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
在 pip.conf 中指定多个可信主机

这是我尝试在我的中设置的 etc pip conf global trusted host pypi org files pythonhosted org 但是它无法正常工作参考 https pip pypa io en stable
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
在pycharm中调试python代码

这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一我正在尝试调试pyethapp https
使用 lambda 函数更改属性值

我可以使用 lambda 函数循环遍历类对象列表并更改属性值对于所有对象或满足特定条件的对象吗 class Student object def init self name age self name name self age ag
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

如何使用 cypress 断言输入值是真实的

我有一些意见
为什么-标签没有关闭

这是一个普遍问题我的教授都无法回答为什么我不必关闭 HTML 中的标签所有其他标签都必须关闭例如 or 那么为什么不呢首先它根本不是一个标签在名义上基于 SGML 或 XML 的 HTML 版本中它是文件类型声明它具有在
正则表达式文字-文本范围

有什么方法可以向正则表达式指示要显式搜索的文本块吗我问这个问题是因为我必须匹配一段非常非常长的文本其中包含各种元字符并且并且必须完全匹配然后是一些灵活的内容足以值得使用正则表达式然后是更多文本必须完全匹配冲洗重复不用说
HTML5 画布将颜色应用于形状重叠的图像

我将此图像绘制到 HTML5 画布上我想做的就是只给它的一部分应用颜色我想要应用颜色的部分由以下覆盖图像定义所以基本上我想通过叠加来指导我的着色因此在覆盖像素与主图像像素相遇的地方我应该在主图像上应用颜色至少我认为它是这样
如何在 Azure DevOps 中的运行未完成时更改其状态

当我通过测试计划 gt 测试套件 gt 选择要执行的测试 gt 执行 gt 运行 Web 应用程序启动手动测试执行时测试和反馈浏览器扩展将启动当由于任何原因我没有完成时测试执行并关闭测试和反馈窗口系统将创建一个新的测试运行可以
尝试使用 SQL 身份验证登录失败

我正在尝试使用 sa 用户名及其密码连接到 SQL Server 2008 在 SQL Server 日志文件中我看到以下错误用户 sa 登录失败原因尝试使用 SQL 登录认证失败服务器配置为 Windows 身份验证仅有的当
这个元组创建习惯有名字吗？

On the 增加邮件列表 http lists boost org Archives boost 2014 06 214213 php LouisDionne 最近发布了以下创建类似元组的实体的巧妙技巧 include
多个包含带有变量定义的头文件

我只是构建一个简单的 C 项目代码如下所示 head h ifndef HEAD H define HEAD H int my var 100 endif src1 cpp include head h src2 cpp include
C# SignalR 异常 - 连接在收到调用结果之前开始重新连接

我正在开发 2 个应用程序第一个是 C 控制台应用程序另一个是 Asp net Web 应用程序我正在使用 SignalR 连接两者这是我的 C 控制台应用程序客户端 public class RoboHub public sta
如何在没有 Xcode 的情况下提交 iOS 应用程序？

我是一名合同开发商我已经为客户编写了一个应用程序是的使用 Xcode 现在我们准备发货了我想向他发送一份应用程序副本他可以签署该副本并将其提交到 iTunes 应用程序商店但是他没有或没有使用 Xcode 虽然这是一个备份计划
iPhone签名捕捉

是否可以通过电缆 USB 连接将签名从 iPhone 传输到 xls 文件因此这可能不完全是您正在寻找的内容但这就是我捕获用户用手指手写笔绘制的签名的方式您的 UIImageView 将具有绘制的签名我没有考虑过如何将签名图
我可以将 Azure Dev Ops 构建定义同时用于发布管理管道和拉取请求，但后者不会触发管道吗

简而言之我们希望使用构建定义来生成用于发布管理的工件并检查拉取请求但不允许后者触发新版本我们在 Git Repo 上有 CI 构建定义将工件输入到发布管理管道中与许多团队一样我们也设置了 Pull 请求来保护我们的 git ma
AWS cognito身份池ABAC如何映射自定义多值属性？

来自身份提供商的开放 ID 令牌示例本例中为 Cognito 用户池 cognito groups testers admins email verified false 我想使用ABAC 就像这里给出的例子一样 https docs a
我应该使用 Helgrind 还是 DRD 进行线程错误检测？

好像Valgrind http valgrind org docs manual manual html有两个工具都可以进行线程错误检测 Helgrind http valgrind org docs manual hg manual ht
Watson Dialog 服务到对话服务

我们使用 Bluemix Dialog 服务创建了对话框现在我们希望将它们导入到新的 Bluemix Conversation 服务中导出导入失败您知道是否存在转移过程吗谢谢不幸的是无法从 Dialog 迁移到 Conversa
错误 ITMS-90085：“二进制文件中没有体系结构。Lipo 无法检测到捆绑可执行文件中的任何体系结构。”

操作系统 OS X Yosemite 版本 10 10 1XCode 未安装应用程序加载器3 0 620 电话间隙 3 7 0PhoneGap 构建在线 build phonegap com 在验证 iTunes 步骤时出现错误 ITM
使用 C# 的异步 WebRequest

您好我有一个函数它将 url Get 参数传递到网络服务器上的 php 文件并等待文件的响应通常需要 10 20 秒我想将其放入一个循环中因为我必须一次将这些 Get 请求发送到大约 5 个不同的 php 文件但是当我尝试将其
防止 Firebase 中的待处理写入事务不起作用

我的目标是在单击按钮时将名称插入 Cloud Firestore 中但如果用户未连接到互联网我不希望保存处于挂起状态我不喜欢 Firebase 保存待处理写入的行为即使互联网连接已恢复我研究发现Firebase 开发人员建议使用事
本地设置的 Cython 编译器指令是否影响一个或所有函数？

我正在努力使用 Cython 加速一些 Python Numpy 代码并且对本地设置如定义的here http docs cython org en latest src reference compilation html在文档中
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4

Pandas DataFrame：如何计算组中第一行和最后一行的差异？

Pandas DataFrame：如何计算组中第一行和最后一行的差异？ 的相关文章

随机推荐

热门标签

Pandas DataFrame：如何计算组中第一行和最后一行的差异？的相关文章