Pandas 将值与前一行与过滤条件进行比较

2024-04-22

我有一个包含员工工资信息的数据框。大约有 900000 多行。

Sample:

+----+-------------+---------------+----------+
|    |   table_num | name          |   salary |
|----+-------------+---------------+----------|
|  0 |      001234 | John Johnson  |     1200 |
|  1 |      001234 | John Johnson  |     1000 |
|  2 |      001235 | John Johnson  |     1000 |
|  3 |      001235 | John Johnson  |     1200 |
|  4 |      001235 | John Johnson  |     1000 |
|  5 |      001235 | Steve Stevens |     1000 |
|  6 |      001236 | Steve Stevens |     1200 |
|  7 |      001236 | Steve Stevens |     1200 |
|  8 |      001236 | Steve Stevens |     1200 |
+----+-------------+---------------+----------+

dtypes:

table_num: string
name: string
salary: float

我需要添加一列，其中包含有关工资水平增加/减少的信息。我正在使用shift()比较行中的值的函数。

主要问题是对整个数据集中所有唯一员工的过滤和迭代。

大约需要3个半小时在我的脚本中。

怎样才能做得更快呢？

我的脚本：

# giving us only unique combination of 'table_num' and 'name'
    # since there can be same 'table_num' for different 'name'
    # and same names with different 'table_num' appears sometimes

names_df = df[['table_num', 'name']].drop_duplicates()

# then extracting particular name and table_num from Series
for i in range(len(names_df)):    ### Bottleneck of whole script ###    
    t = names_df.iloc[i,[0,1]][0]
    n = names_df.iloc[i,[0,1]][1]

    # using shift() and lambda to check if there difference between two rows 
    diff_sal = (df[(df['table_num']==t)
               & ((df['name']==n))]['salary'] - df[(df['table_num']==t)
                                                 & ((df['name']==n))]['salary'].shift(1)).apply(lambda x: 1 if x>0 else (-1 if x<0 else 0))
    df.loc[diff_sal.index, 'inc'] = diff_sal.values

输入数据示例：

df = pd.DataFrame({'table_num': ['001234','001234','001235','001235','001235','001235','001236','001236','001236'], 
                     'name': ['John Johnson','John Johnson','John Johnson','John Johnson','John Johnson', 'Steve Stevens', 'Steve Stevens', 'Steve Stevens', 'Steve Stevens'], 
                     'salary':[1200.,1000.,1000.,1200.,1000.,1000.,1200.,1200.,1200.]})

示例输出：

+----+-------------+---------------+----------+-------+
|    |   table_num | name          |   salary |   inc |
|----+-------------+---------------+----------+-------|
|  0 |      001234 | John Johnson  |     1200 |     0 |
|  1 |      001234 | John Johnson  |     1000 |    -1 |
|  2 |      001235 | John Johnson  |     1000 |     0 |
|  3 |      001235 | John Johnson  |     1200 |     1 |
|  4 |      001235 | John Johnson  |     1000 |    -1 |
|  5 |      001235 | Steve Stevens |     1000 |     0 |
|  6 |      001236 | Steve Stevens |     1200 |     0 |
|  7 |      001236 | Steve Stevens |     1200 |     0 |
|  8 |      001236 | Steve Stevens |     1200 |     0 |
+----+-------------+---------------+----------+-------+

Use groupby https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html和...一起diff https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.diff.html:

df['inc'] = df.groupby(['table_num', 'name'])['salary'].diff().fillna(0.0)
df.loc[df['inc'] > 0.0, 'inc'] = 1.0
df.loc[df['inc'] < 0.0, 'inc'] = -1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Compare

rows

Pandas 将值与前一行与过滤条件进行比较的相关文章

Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
使用另一个索引数组正确索引多维 Numpy 数组

我正在尝试索引多维数组P与另一个数组indices 它指定我想要沿最后一个轴的哪个元素如下所示 import numpy as np M N 20 10 P np random rand M N 2 9 index into the la
Python 有哪些重要的语言特性（习语）需要尽早学习[重复]

这个问题在这里已经有答案了我有兴趣了解 StackOverflow 社区认为 Python 的重要语言特性习语是什么将程序员定义为 Pythonic 的特征 Python pythonic 习语 Python 语言自然的或特有的代
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large
使用 openCV 和 python 检测物体

我正在尝试使用 OpenCV 和 Python 检测下图中的白点我尝试使用函数 cv2 HoughCircles 但没有成功我需要使用不同的方法吗这是我的代码 import cv2 cv import numpy as np impo
单击按钮时执行 python 脚本

我有一个带有一个按钮的 HTML 页面当我们单击该按钮时我需要执行一个 python 脚本并返回到包含结果的同一 HTML 页面所以我需要对返回值进行一些验证并执行一些操作这是我的代码 HTML
为 Mercurial 执行 hgweb.cgi 时，指定的 CGI 应用程序行为不当...

我有 IIS 6 我将 Mercurial 安装在 c program files mercurial 中我在 c program files python 中安装了 Python 2 6 I added extension handli
scikit-learn - 具有置信区间的 ROC 曲线

我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表即
Python NET 调用具有返回值和输出参数的 C# 方法

我有以下静态 C 方法 public static bool TryParse string s out double result 我想使用 Python NET 包从 Python 调用它 import clr from System
如何在 python 中将 selenium webelement 转换为字符串变量

from selenium import webdriver from time import sleep from selenium common exceptions import NoSuchAttributeException fr
Requests-html 导致 OSError: [Errno 8] 调用 html.render() 时执行格式错误

我正在使用 requests html 并尝试渲染功能但收效甚微当我使用 python3 8 运行这个脚本时 usr bin python3 from requests html import HTML file scrape temp
如何解析代码（Python）？

我需要解析一些特殊的数据结构它们采用某种类似 C 的格式大致如下所示 Group GroupName C Style comment Group AnotherGroupName Entry some variables 0 3 141
在 Python 中删除表达式树及其每个子表达式树中第一个元素周围的括号

目标是实现简化操作删除表达式树及其每个子表达式树中第一个元素周围的括号其中表达式作为括在各个括号中的字符串输入给出这必须适用于任意数量的括号例如 12 3 45 6 gt 123 45 6 删除 12 周围的括号然后删除 45 周
如何使用 python / pywinusb 将 hid 数据发送到设备？

我正在尝试使用 pywinusb 将输出报告发送到 pic18f4550 该设备可以接收数据我已经使用 C 应用程序对其进行了测试效果很好另外我可以使用 pywinusb 从设备读取数据但我在尝试发送数据时遇到问题这是我正在运行
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
tweepy 计数限制为 200？

我目前正在尝试检索一些拥有大量关注者的大帐户的关注者我正在使用 Tweepy 和这段代码带光标 follower cursors tweepy Cursor api followers id id var count 5000 for
Pandas：Drop() int64 基于值返回对象

我需要删除其中一列低于某个值的所有行我使用了下面的命令但这将列作为对象返回我需要将其保留为int64 df customer id df drop df customer id df customer id lt 9999999 in
hashlib 和 urandom 哪个更随机？

我正在和一个朋友一起开发一个项目我们需要生成随机哈希在我们有时间讨论之前我们都提出了不同的方法并且因为他们使用不同的模块我想问你们大家什么会更好如果有这样的事情的话 hashlib sha1 str random random
将 2D 数组中的每一列与另一个 2D 数组中的每一列相乘

我有两个 Numpy 数组x有形状 m i and y有形状 m j 所以行数是相同的我想将每一列相乘x每一列y逐元素使结果具有形状 m i j Example import numpy as np np random seed 1 x

随机推荐

使用forever运行meteor生成的节点包的正确语法是什么？

在文档中在您自己的服务器上运行meteor的过程是运行 meteor bundle bundle tgz 然后提取这个 tarball tar xzvf bundle tgz 然后启动一个节点服务器 MONGO URL mongodb l
YouTube API v3 示例项目引发 GTLJSONRPCErrorDomain -32602 错误请求错误

我刚刚下载了Google API 目标 C 客户端 https code google com p google api objectivec client source checkout 我在 Mac 上的 Xcode 中打开了 YouT
如何在没有标志的情况下使用 ngx-bootstrap 角度折叠

我正在尝试制作折叠动画但没有布尔指示器isCollapsed 因为我有很多元素并且我不想创建很多布尔值所以有没有办法在没有布尔指示器的情况下做到这一点
根据属性动态注册Spring Bean

我正在使用最新的 Spring Boot 版本并尝试根据中定义的内容动态创建 n 个 beanapplication yaml文件然后我想根据 bean 名称将这些 bean 注入到其他类中下面的代码是我想要实现的目标的一个非常简化的
JSpinner 编辑器区域设置

我正在创建 JSpinner 并设置具有自定义格式的 NumberEditor 但无论我做什么格式都使用而不是不根据我的语言环境 pt BR priceSpinner new JSpinner priceSpinner setEdit
ASP.NET UpdatePanel 错误 htmlfile：未知的运行时错误，updatePanelElement.innerHTML=rendering

在触发 UpdatePanel 后调试 ASP NET Web 应用程序时我收到此错误 htmlfile 未知的运行时错误并且 updatePanelElement innerHTML rendering 在 ScriptResourc
多用户聊天中的 smack 存在侦听器

多用户聊天中的smack状态监听器没有被调用使用Smack Api登录然后添加名册 addRosterListener mRoasterListener 但当聊天室其他用户的存在发生变化时无法成功收听我尝试使用以下代码来使存在侦听器正
在 Mathematica 中使用图形进行渐变填充

我如何使用以下内容创建Rectangle in Graphics Using Polygon 你可以 Graphics EdgeForm Black Polygon 0 0 3 0 3 1 0 1 VertexColors gt White
Backbone.Marionette 在路由更改时更改区域

我的应用程序有一个主区域有时主区域中会有一些应可通过 URL 访问的子区域主要区域内容由应用程序路由器的功能更改因为他知道主要区域但是子视图中的临时区域呢例如网址 docs将显示文档链接列表以及 doc id应在列表旁边显示文档的
具有多个参数的 COM“获取属性”

我正在尝试打电话WindowsInstaller Installer ProductsEx http msdn microsoft com en us library aa369461 28v vs 85 29 aspx来自 python
导航栏是否应该始终以列表的形式实现？

首先非常抱歉如果这不是一个真正的 stackoverflow 问题但这是我一直想知道的事情当您为网站 html 编写导航栏时我读到这是非常好的实践即使不是使用列表标签实现它的唯一实践例如 ul li Home li li A
嵌套聚合物组件内容问题

foo html
Yii2如何检查两个模型是否已经链接

我有两个通过连接表关联的模型 model gt link 是用于建立两个模型之间关系的方法它基本上用两个模型的相应键填充连接表如果两个模型已链接并且我尝试再次链接它们则会出现错误因为密钥对已存在于连接表中然后我需要在尝试链接模型之
将工作簿的所有工作表复制到另一个文件

我想对我的所有 xlsx 执行以下步骤复印第一张纸将复制的工作表粘贴到另一个文件将粘贴的工作表重命名为文件名重复步骤 1 并将工作表复制到步骤 2 的同一文件中重复步骤 3 我可以用 R 执行此步骤吗我的 xlsx contei
Jquery 下一个相邻选择器 $(this)

我如何将相邻的选择器与 this 一起使用我需要有关注释行的帮助 this does not work ExpandCollapse click function if this nextUntil Collapsable is vis
JSONB 会让 PostgreSQL 数组变得无用吗？

假设您想在对象例如帖子上存储标签在 9 4 版本中您有 3 个主要选择标签作为文本标签为 jsonb 标签作为文本并且您将 JSON 字符串存储为文本在许多情况下第三个是不可能的因为它不允许对标签值进行条件查询在
`istreambuf_iterator` 和 `istream_iterator` 之间的区别

有什么区别istreambuf iterator and istream iterator 对于以下代码 istream iterator
将 --net=host 传递给 docker build

将其他选项传递给docker build 你可以指定DOCKER OPTS in etc default docker 但是 net 不可用构建容器时是否可以使用主机的网络堆栈我正在运行 Docker 版本 1 3 2 内部版本 39f
删除“OPTIMIZE_FOR_SEQUENTIAL_KEY”会解决我的 script.sql 的失败问题还是涉及更多问题（SQL Server Express DB -> SQL Server）？

我正在尝试在托管站点 GoDaddy Plesk 上将 SQL Server Express 数据库设置为成熟的 SQL Server DB 但在运行 script sql 文件时遇到了一系列错误消息我正在按照步骤操作here https
Pandas 将值与前一行与过滤条件进行比较

我有一个包含员工工资信息的数据框大约有 900000 多行 Sample table num name salary 0 001234 John Johnson 1200 1 001234 John Johnson 1000 2 0012

Pandas 将值与前一行与过滤条件进行比较

Pandas 将值与前一行与过滤条件进行比较 的相关文章

随机推荐

热门标签

Pandas 将值与前一行与过滤条件进行比较的相关文章