Pandas 进行分组和求和，但在超过一定数量时创建新行

2023-12-13

我目前有一个数据集，我尝试根据列对行进行分组并对值为整数的列求和。

然而，问题是一旦总和达到一定阈值我想创建一个新行

例如，在下面的数据框中，我尝试根据公司名称对行进行分组并总结权重，但是，我不希望权重超过 100。

输入数据框：

Company	Weight
a	30
b	45
a	27
a	40
b	57
a	57
b	32

输出数据帧：

Company	Weight
a	97
a	57
b	89
b	45

我尝试过使用 group by 和 sum，但是，它无法检测我是否已达到最大金额。

我有什么办法可以实现这个目标吗？

任何帮助将不胜感激！

我认为这里有必要的循环，因此为了提高性能，请使用numba，修改的Divakar 的解决方案，按组调用函数GroupBy.transform然后聚合sum:

from numba import njit

@njit
def make_groups(x, target):
    result = np.empty(len(x),dtype=np.uint64)
    total = 0
    group = 0
    for i,x_i in enumerate(x):
        total += x_i
        if total >= target:
            group += 1
            total = 0
        result[i] = group
    return result

g = df.groupby("Company")["Weight"].transform(lambda x: make_groups(x.to_numpy(), 100))

df1 = (df.groupby(by=["Company", g])
        .sum()
        .reset_index(1, drop=True)
        .sort_values(['Company','Weight'], ascending=[True, False])
        .reset_index())
print (df1)
  Company  Weight
0       a      97
1       a      57
2       b      89
3       b      45

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandasgroupby

Pandas 进行分组和求和，但在超过一定数量时创建新行的相关文章

如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

Angularjs：预览净化后的 html

请找到plnkr 我想显示一些 html 预览 html 已经在服务器上进行了清理例如 lt b gt HELLO lt b gt 我怎样才能显示html表单在示例中我想显示myHtml2显示为myHtml 第一次预览 html di
在单选按钮选择上显示元素

我想展示input text场上radio button普通 JavaScript 中的选择我缺少什么 const form document querySelector form const size form elements siz
在 Objective-C 中，什么时候应该使用属性，什么时候应该使用实例变量？

我不熟悉同时具有属性和实例变量的程序语言所以我不知道使用属性和实例变量的好方法现在我在 Objective C 代码中仅使用属性并且不使用任何实例变量我需要使用实例变量吗或者仅使用属性是 Objective C 的最佳实践 in
iPhone 上的二进制短信

我正在寻找有关如何在 iPhone 上实现二进制 SMS 的信息我特别想知道你需要在 iOS 应用程序中做什么如果可能的话监听特定的 SMS 端口并然后收到专用的二进制短信通知当然我正在寻找基于官方公共 API 的解决方案没
如何处理多种日期格式？

当我到达下面的 df date 行时当具有此格式的日期时应用程序崩溃2016 12 27 14 40 46 0000用来致命错误在解包可选值时意外发现 nil 我也看到了这一点错误执行被中断原因 EXC BAD INSTRUCT
使用 CImg 加载 PNG

我无法使用 CImg 加载 PNG 我听说您需要先获取 libpng zlib 才能开始工作但我不确定如何设置我在Ubuntu上我的来源 include
Firefox 上的 Polymer 1.0 ReferenceError：Polymer 未定义

您好我在 Chrome 和 Opera 上有一个可用的 Polymer 1 0 网页现在我需要该页面在 Firefox 和 Safari 中运行我有以下测试
Iframe 下的 IE11 怪异模式 - javascript 错误

我几天来一直在阅读和寻找答案但找不到答案希望这篇文章能带来救赎在我的公司我们有一个在 IE8 上运行的网络应用程序我们正在尝试迁移到 IE11 我们快到了但是我们有一个旧模块它是在旧框架中编写的该框架托管在 iframe 中
如何在 django-cms 中使用 iframe

我正在寻找一个好的解决方案使最终用户能够在模板占位符中插入 iframe Soundcloud 我考虑过使用 djangocms text ckeditor 插件在里面文档它说使用可配置的清理程序来完成此操作 djangocms tex
ClassCastException 在 scala 中使用 ArgumentCapture for Double

我使用时遇到问题ArgumentCapture for a Double在斯卡拉我正在尝试捕捉一个Double对被嘲笑的特质的论证当尝试捕获时相同的语法可以正常工作Int 这是一个测试示例 import org scalatest F
如何使用go模板通过FuncMap解析html文件

我使用以下代码来解析 html 模板效果很好 func test w http ResponseWriter req http Request data struct A int B int A 2 B 3 t template New
ubuntu 中不支持 Major.minor 版本 52.0

我在用jdk1 8 0 25 当我使用以下命令检查 Java 版本时 java version 它输出以下内容 java version 1 7 0 65 OpenJDK Runtime Environment IcedTea 2 5 3
如何自动将 MySQL 列转换为小写

是否有一个属性可以添加到列中以便将其值转换为小写而不是通过 PHP 对每个值执行此操作你也许可以通过trigger在插入或更新时触发我自己我宁愿创建一个view具有相关列的小写版本视图的 SQL 可能类似于 SELECT ID
使用列表理解进行素因数分解

我想仅使用列表理解方法和或找到给定数字的所有素因数 Haskell 中的函数组合运算符我特别想避免递归解决方案例如 pfactors 120必须产生 2 2 2 3 5 output I tried pfactors n p p l
Bash for 循环设置一个变量、它的值并评估它？

如何使用 for 循环来定义变量 and它的价值 and能够评价一下吗我无法弄清楚评估部分但使用 for 循环来定义变量and它的价值似乎有效具体来说 for i in 1 4 do export my i var path i to
如何使用 ngx-translateservice 翻译打字稿中的方法

我尝试用这个问题中的所有这些例子来解决我的任务Angular ngx translate 在打字稿中的用法我不知道如何将 TranslateService 连接到我的方法瑞典语翻译文件se json 无钥匙 NAME Namn 英文翻译文
Android自动备份错误

我正在尝试实现 android 自动备份 Android 6 0 但它不起作用我得到同样的错误 10 28 22 58 06 980 600 5578 I PFTBT Initiating full data transport back
超时和会话超时问题

我遇到超时问题首先即使 webconfig 中的时间设置为 120 分钟服务器上每 20 分钟就会发生一次超时其次当超时发生时它会转到登录页面这是正确的但重新登录时有时会转到默认页面有时会转到之前所在的页面我希望它每次都
为什么缺少媒体类型 application/json 的 writer

基本上我有一个安静的服务帖子它消耗 application json 并产生 application json 该服务的单个参数是一个带注释的 java 对象我在用org jboss resteasy client ClientReq
Pandas 进行分组和求和，但在超过一定数量时创建新行

我目前有一个数据集我尝试根据列对行进行分组并对值为整数的列求和然而问题是一旦总和达到一定阈值我想创建一个新行例如在下面的数据框中我尝试根据公司名称对行进行分组并总结权重但是我不希望权重超过 100 输入数据框 Company

Pandas 进行分组和求和，但在超过一定数量时创建新行

Pandas 进行分组和求和，但在超过一定数量时创建新行 的相关文章

随机推荐

热门标签

Pandas 进行分组和求和，但在超过一定数量时创建新行的相关文章