在 pandas 数据帧上使用 cumcount 并有条件增量

2023-12-11

考虑数据框

df = pd.DataFrame(
    [
        ['A', 1],
        ['A', 1],
        ['B', 1],
        ['B', 0],
        ['A', 0],
        ['A', 1],
        ['B', 1]
    ], columns = ['key', 'cond'])

我想找到每个的累积（运行）计数（从 1 开始）key，只有当组中的前一个值有时我们才会增加cond == 1。当附加到上面的数据框时，这将给出

df_result = pd.DataFrame(
    [
        ['A', 1, 1],
        ['A', 1, 2],
        ['B', 1, 1],
        ['B', 0, 2],
        ['A', 0, 3],
        ['A', 1, 3],
        ['B', 1, 2]
    ], columns = ['key', 'cond'])

请注意，本质上cond每个中最后一行的值key组没有影响。

只做一个简单的group and cumcount

df.groupby('key').cumcount()

当然不考虑cond前一个元素的值。我该如何考虑这一点？

EDIT

由于下面的一些解决方案不适用于某些边缘情况，我将提供更全面的数据框进行测试。

df = pd.DataFrame(
    [
        ['A', 0],
        ['A', 1],
        ['A', 1],
        ['B', 1],
        ['B', 0],
        ['A', 0],
        ['A', 1],
        ['B', 1],
        ['B', 0]
    ], columns = ['key', 'cond'])

当附加真实结果时应该给出

df_result = pd.DataFrame(
    [
        ['A', 0, 1],
        ['A', 1, 1],
        ['A', 1, 2],
        ['B', 1, 1],
        ['B', 0, 2],
        ['A', 0, 3],
        ['A', 1, 3],
        ['B', 1, 2],
        ['B', 0, 3]
    ], columns = ['key', 'cond'])

Use groupby与组合shift and cumsum.

df['new'] = df.groupby('key').cond.apply(
        lambda x: x.shift().fillna(1).cumsum()
).astype(int)

df
  key  cond  new
0   A     1    1
1   A     1    2
2   B     1    1
3   B     0    2
4   A     0    3
5   A     1    3
6   B     1    2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby

pandasgroupby

在 pandas 数据帧上使用 cumcount 并有条件增量的相关文章

on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

EXC_BAD_ACCESS 与 MKPinAnnotationView

我在 iOS 的 mapView 上显示 MKPinAnnotationView 时遇到问题我收到此错误但我不明白错误来自何处 EXC BAD ACCESS 我的代码看起来不错 MKAnnotationView mapView MKMa
如何找到hcaptcha回调函数

所以我需要帮助在网站上查找 hcaptcha 回调函数网站上没有提交按钮所以我假设他们使用 hcaptcha 回调函数该网站是https discord com register任何帮助将不胜感激这段代码应该可以帮助你 https
如何在 WAMPServer 中从 Windows 命令行运行 PHP

我是 php 新手想从命令行运行 php 我已经安装了 WAMP 并将系统变量设置为我的 php 文件夹即C wamp bin php php5 4 3 当我去Run gt CMD gt 类型php a然后按回车键它说intera
在 EF Core 2.0 中使用 DataTable 作为表值参数

更新问题描述我们有一个批量导入流程我们正在通过该流程IEnumerable
如何使用像素RGB值0到1在java中编写PNG文件？

我正在用 java 编写光线追踪器并试图弄清楚如何将生成的图像写入 PNG 文件到目前为止我找到的所有示例都演示了如何使用 BufferedImage 创建 PNG 但它们都使用 RGB 值 0 到 255 在我的代码中我表示 0
使用 libjpeg 在 C++ 中旋转 JPEG 图像

我正在尝试根据 EXIF 元数据中存在的方向参数使用 libjpeg v9 在 C 中旋转 JPEG 图像我能够获取方向参数并在此基础上我还能够将图像旋转到另一个文件中以便旋转后的图像对应于方向值 1 请参阅我从 jp
将 Google 工作表数据直接导入 R [关闭]

Closed 这个问题需要多问focused 目前不接受答案是否可以在没有授权密钥的情况下直接从 Google 文档将表导入到 R 中我有一个可共享的谷歌表格我尝试连接到闪亮的应用程序但找不到合适的方法随包gsheet您可以从可共
使用“pys-onClick=...”从按钮单击调用 py-script 函数不起作用？

我对 PyScript 比较陌生希望在单击按钮时运行一个函数但是无论我尝试什么代码它似乎都不起作用该按钮是可点击的但似乎没有执行任何操作当我手动调用该函数在 py script 标记内时它工作正常我错过了什么吗这是我
如何在 Automapper 中注册来自不同程序集的配置文件？

我有一个包含许多程序集的应用程序 NET Core WebAPI 包含视图模型并使用 DTO 服务包含 DTO 并使用域实体在 WebAPI 程序集中我使用以下行自动注册了自动映射器配置文件 services AddAutoMappe
使用 jQuery unique 过滤重复的 img src 或删除

我尝试了此处讨论的不同解决方法但它们都不适用于我的情况这是我的来源 div class colourDots img src out pictures generated product 8 300 450 100 60028 bl j
为什么MySQL允许按未选择的列进行分组

我正在读一本关于 SQL 的书 Sams Teach Yourself SQL in 10 Minutes 尽管它的标题是这样但它还是相当不错的然而关于 group by 的章节让我感到困惑对数据进行分组是一个简单的过程选定的列下
Google 地图：放置项目时 IE7 和 IE8 未捕获 mouseup 事件

我不明白为什么这把小提琴不适用于 IE7 和 IE8 目标是在地图上拖动气球并捕获 mouseup 事件以检索项目已放置的坐标如果用户没有拖动气球该事件会在所有浏览器包括 IE7 和 IE8 上正确触发但是如果用户拖动气球 IE7
UIActivityController 在设备和模拟器上的行为不同

我将 ActivityViewController 添加到我的应用程序中如下所示传递图像 UIActivityViewController avc UIActivityViewController alloc initWithActiv
编写一个 C# 程序，扫描电子商务网站并从中提取产品图片+价格+描述

我正在开发一个电子商务搜索引擎可以让您在很多电子商务网站中搜索产品我该如何处理这个问题我需要一个能够扫描网站解析 HTML 并确定网站中的哪些图像是产品图像哪些是产品描述哪些是产品价格的应用程序很高兴听到任何想法例如提前致
使用 Azure AD Graph 客户端 API 更改用户密码的权限问题

我正在尝试在 ASP Net MVC 中创建一个页面来重置当前用户的密码我正在使用 Azure Active Directory 进行用户身份验证为了访问用户的 AD 信息我使用 C Graph API 客户端我的代码基于以下位置的
在 eclipse 中创建连接 - ClassNotFoundException: com.mysql.jdbc.Driver

我没有在代码中执行任何操作我只是创建了一个 Eclipse 连接但似乎无法 ping 它连接属性该罐子就是我所说的位置 GLASSFISH HOME domains domain1 lib ext 但我得到 java lang Cl
“texlive”应该有什么权限？

多年来我一直使用 MacTeX 它安装在 usr local texlive 并且最近开始使用 Homebrew 来管理一些包尽管还没有 TeX 由于采用了 Homebrew 我改变了所有的所有者 usr local to Me admi
JSF 中有浏览按钮吗？

我需要这个来实现我创建的基于网络的应用程序的导入功能我需要获取用户想要导入的文本文件的路径以便获取文本文件内的数据并将其保存在数据库中标准 JSF 中没有这样的组件但是有几个组件库提供文件选择 PrimeFaces
我在应用德摩根定律时遇到问题...反馈？

每次我的作业中出现这些问题时我都会做错有人能帮助我理解吗还是老师的钥匙关了我无法知道因为我没有得到正确的答案它只能让我知道我的答案是错误的 Assume x 7 and y 5 应用德摩根定律选择与以下逻辑表达式等效的逻辑表达
在 pandas 数据帧上使用 cumcount 并有条件增量

考虑数据框 df pd DataFrame A 1 A 1 B 1 B 0 A 0 A 1 B 1 columns key cond 我想找到每个的累积运行计数从 1 开始 key 只有当组中的前一个值有时我们才会增加cond 1 当

在 pandas 数据帧上使用 cumcount 并有条件增量

在 pandas 数据帧上使用 cumcount 并有条件增量 的相关文章

随机推荐

热门标签

在 pandas 数据帧上使用 cumcount 并有条件增量的相关文章