在 pandas 中用分组依据的总数百分比注释每一行？

2024-03-15

我有一个如下所示的数据框：

Company       Speciality      Payment
AcmeCorp      Roofing         50.00
AcmeCorp      Grounding       50.00
LolCorp       Roofing         106.00
LolCorp       Grounding       94.00

我想添加一个百分比列，如下所示：

Company       Speciality      Payment     Percent of Total Payment
AcmeCorp      Roofing         50.00       50
AcmeCorp      Grounding       50.00       50
LolCorp       Roofing         106.00      53
LolCorp       Grounding       94.00       47

最好的方法是什么？

我可以使用这样的东西来搞乱它：

df_m = df.groupby('Company').sum()
final_df = pd.merge(df, df_m, on='Company', suffixes=('Raw', 'Total))
final_df['Percent of Total Payment] = final_df['Payment Raw'] / final_df['Payment_Total']

但我想知道是否有更有效的方法。

Use groupby/transform生成与原始 DataFrame 长度相同的列。这可以让你避免打电话pd.merge.

import numpy as np
import pandas as pd

df = pd.DataFrame({'Company': ['AcmeCorp', 'AcmeCorp', 'LolCorp', 'LolCorp'],
 'Payment': [50.0, 50.0, 106, 94.00],
 'Speciality': ['Roofing', 'Grounding', 'Roofing', 'Grounding']})

total = df.groupby('Company')['Payment'].transform('sum')
df['percent'] = df['Payment']/total
print(df)

yields

    Company  Payment Speciality  percent
0  AcmeCorp     50.0    Roofing     0.50
1  AcmeCorp     50.0  Grounding     0.50
2   LolCorp    106.0    Roofing     0.53
3   LolCorp     94.0  Grounding     0.47

Although

total = df.groupby('Company')['Payment'].transform('sum')
df['percent'] = df['Payment']/total

可以简化为一行，

df['percent'] = df.groupby('Company')['Payment'].transform(lambda x: x/x.sum())

因为内置操作就像.transform('sum')比具有自定义功能的功能更快（例如.transform(lambda x: x/x.sum())），两行版本更快（特别是对于大型 DataFrame。）

当然，两行版本也可以写成

df['percent'] = df['Payment'] / df.groupby('Company')['Payment'].transform('sum')

速度没有损失，一个较少命名的变量，但可能有点难以阅读。

这是 100K 行 DataFrame 的基准测试：

In [53]: %timeit using_transform(df)
100 loops, best of 3: 8.5 ms per loop

In [54]: %timeit using_one_liner(df)
10 loops, best of 3: 20.2 ms per loop

In [55]: %timeit orig(df)
10 loops, best of 3: 30.2 ms per loop

这是用于执行基准测试的设置。

import numpy as np
import pandas as pd

N = 10**5
df = pd.DataFrame({'Company': np.random.choice(list('ABCD'), size=N),
    'Payment': np.random.randint(10, size=N),
    'Speciality': np.random.choice(list('XYZ'), size=N)})

def using_transform(df):
    total = df.groupby('Company')['Payment'].transform('sum')
    df['percent'] = df['Payment']/total
    return df

def using_one_liner(df):
    df['percent'] = df.groupby('Company')['Payment'].transform(lambda x: x/x.sum())
    return df

def orig(df):
    df_m = df.groupby('Company').sum()
    final_df = pd.merge(df, df_m, left_on='Company', right_index=True, suffixes=('_Raw', '_Total'))
    final_df['Percent of Total Payment'] = final_df['Payment_Raw'] / final_df['Payment_Total']
    return final_df

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

在 pandas 中用分组依据的总数百分比注释每一行？的相关文章

为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

Android ListView onTouchEvent 不给出 ACTION_DOWN

为了具有列表重新排序功能我转向这个实现 http ericharlow blogspot de 2010 10 experience android drag and drop list html showComment 13321713
Linux 进程中的这些内存区域有何用途？

我发现我的一个进程 90 个线程使用 gt 8G 内存我认为它不需要这么大的内存因此我读了 proc pid maps proc pid smaps and pstack pid 我想知道那些大63M 508K区域的来源以及它们的用
Animated.View 的 style prop 的 Typescript 定义

我有一个组件Props接口扩展ViewProps来自 React Native 即 export interface Props extends ViewProps Custom props 自然地这扩展了style支柱有一个警告我正
为什么返回字符串的 VB.Net 函数实际上只返回单个字符？

我正在调用一个返回字符串的函数但它实际上只返回它应该返回的字符串的第一个字符这是重现我遇到的问题的示例代码 Public Function GetSomeStringValue Value as Integer As String Co
流星在哪里存储它的包裹？

我有一个流星 1 0 应用程序我添加了一堆包例如 meteor add kevohagan ramda 但我在任何地方都找不到它我什至在我的系统上找不到它在我的项目中 gt meteor list kevohagan ramda 0
JWT Bearer ASP.Net Core 3.1 用户在服务器上为空

今天我一直在尝试使用 Microsoft AspNetCore Authentication JwtBearer 库将 JSON Web 令牌信息绑定到 HttpContext User 问题每次调用服务器时我都可以使用 Author
我可以将 std:fixed 或 std::set precision() 与 >> 运算符一起使用吗？

std istringstream将字符串转换为 long double 时会丢失精度我可以使用类似的东西吗std fixed or std setprecision 我正在使用 c 11 并针对 QNX 平台 include
使用 printf("%s",..) 打印一个结构体，该结构体的第一个变量类型是 'char *'，为什么能得到正确的字符串存储在 'char *' 中？

在C语言中定义一个结构体如下 typedef struct str char s int len str int main str a a s abc printf s a return 0 输出是 abc 我想知道为什么能得到这个我猜
覆盖 Maven-Bundle-Plugin 中的 Require-Capability

我的问题类似于this one https stackoverflow com questions 38322981 how to override bnd require capability generated from ds anno
如何在 Symfony 2 中有效地使用分页和教义？

我想在 Symfony 中使用 Doctrine ORM 和分页方法 KnpPaginatorBundle 看起来简单易用我还使用 Doctrine 存储库因为查询可以轻松地重用和测试这个捆绑包的工作原理与我发现的其他捆绑包一样它需
如果前一个线程仍然繁忙，如何让计时器跳过刻度

我创建了一个 Windows 服务该服务应该每 60 秒检查数据库中的某个表是否有新行对于添加的每个新行我都需要在服务器上进行一些繁重的处理有时可能需要 60 秒以上的时间我在服务中创建了一个 Timer 对象该对象每 60 秒
使用 WebSockets 的自托管 WCF 无法使用 SSL 工作

我在控制台应用程序中有这段代码我正在尝试从 chrome 开发工具进行连接但出现此错误尽管问题肯定在 WCF 端 WebSocket connection to wss 127 0 0 1 5650 Echo failed Error
Javascript for 循环 Promise

我有一个像这样的网址数组 var urls www google com www yahoo com 我想循环遍历 url 并在循环内执行异步任务并且在异步任务完成之前不会继续执行下一个项目我知道你可以通过承诺做到这一点但我在这方面遇
可以直接在浏览器中运行C代码吗？

除了性能考虑之外是否有任何已知的方法可以采用现有的 C C 或 Objective C 代码并直接在浏览器中运行它例如编译器将所有代码转换为某种可以在浏览器中运行的解释性语言就像 Javascript Actionscript 和
使用单击功能将 php 变量传递到模态窗口

我有一个启动模式窗口的单击功能在模态窗口内部我加载 modal window php 点击函数如下所示 a testmodal click function e varid get modal window php id varid f
jQuery 美元符号未定义

在我寻求获取历史信息的过程中我尝试使用下面的代码 Chrome 调试器说Uncaught ReferenceError is not defined 你能建议一个解决办法吗我真的被困住了我只需要它在 Chrome 上工作并且我正在利
Twitter 搜索 API - 无法使用？

经过多次测试我无法让 Twitter 搜索 API 返回超过 80 的包含特定关键字或话题标签的推文这与最大结果数无关一项测试涉及已被推文 50 次的主题标签而 Twitter 搜索 API 仅返回了其中的 15 个使用 Twit
使用 Marshmallow 序列化 SQLAlchemy

我正在遵循教程并使用下面的代码我还使用 Postman 查看服务器的状态http localhost 5000 行星 http localhost 5000 planets 但我得到了500内部服务器错误当我应该看到我创建的行星的 JS
在给定顶点坐标的情况下查找图中的所有循环基

类似的问题发布在这里 https stackoverflow com questions 1607124 algorithms to identify all the cycle bases in a undirected graph 我有
在 pandas 中用分组依据的总数百分比注释每一行？

我有一个如下所示的数据框 Company Speciality Payment AcmeCorp Roofing 50 00 AcmeCorp Grounding 50 00 LolCorp Roofing 106 00 LolCorp G

在 pandas 中用分组依据的总数百分比注释每一行？

在 pandas 中用分组依据的总数百分比注释每一行？ 的相关文章

随机推荐

热门标签

在 pandas 中用分组依据的总数百分比注释每一行？的相关文章