如何总结不同的groupby组合？

2024-04-19

我正在编制一份按县列出的前 3 名作物的表格。有些县的农作物品种相同，顺序相同。其他县也有相同的作物品种，但顺序不同。

df1 = pd.DataFrame( { 
    "County" : ["Harney", "Baker", "Wheeler", "Hood River", "Wasco" , "Morrow","Union","Lake"] , 
    "Crop1" : ["grain", "melons", "melons", "apples", "pears", "raddish","pears","pears"],
    "Crop2" : ["melons","grain","grain","melons","carrots","pears","carrots","carrots"],
    "Crop3": ["apples","apples","apples","grain","raddish","carrots","raddish","raddish"],
    "Total_pop": [2000,1500,3000,1500,2000,2500,2700,2000]} )

我可以对 Crop 1、Crop 2 和 Crop3 进行 groupby 并获得总 pop 的总和：

df1_grouped=df1.groupby(['Crop1',"Crop2","Crop3"])['Total_pop'].sum().reset_index()

这给了我特定作物组合的总数：

df1_grouped
apples  melons  grain   1500
grain   melons  apples  2000
melons  grain   apples  4500
pears   carrots raddish 6700
raddish pears   carrots 2500

不过，我想要的是获取不同作物组合的总人口——无论列出的作物是作物 1、作物 2 还是作物 3。期望的结果是这样的：

apples  melons   grain    8000
pears   carrots  raddish  9200

感谢您的任何指导。

由于您的数据似乎保证每个国家都有 3 种独特的作物（“我正在按县编制前 3 种作物的表格。”），因此只需对值进行排序并分配回来即可。

import numpy as np

cols = ['Crop1', 'Crop2', 'Crop3']
df1[cols] = np.sort(df1[cols].to_numpy(), axis=1)

       County    Crop1  Crop2    Crop3  Total_pop
0      Harney   apples  grain   melons       2000
1       Baker   apples  grain   melons       1500
2     Wheeler   apples  grain   melons       3000
3  Hood River   apples  grain   melons       1500
4       Wasco  carrots  pears  raddish       2000
5      Morrow  carrots  pears  raddish       2500
6       Union  carrots  pears  raddish       2700
7        Lake  carrots  pears  raddish       2000

然后总结一下：

df1.groupby(cols).sum()

#                       Total_pop
#Crop1   Crop2 Crop3             
#apples  grain melons        8000
#carrots pears raddish       9200

好处是你可以避免Series.apply or .apply(axis=1)。对于较大的DataFrames，性能差异很明显：

df1 = pd.concat([df1]*10000, ignore_index=True)

cols = ['Crop1', 'Crop2', 'Crop3']
%timeit df1[cols] = np.sort(df1[cols].to_numpy(), axis=1)
#36.1 ms ± 399 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

to_sum = ['Crop1', 'Crop2', 'Crop3']
%timeit df1[to_sum] = pd.DataFrame(df1.loc[:, to_sum].apply(set, axis=1).apply(list).values.tolist(), columns=to_sum)
#1.41 s ± 51.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

pandasgroupby

pythonitertools

如何总结不同的groupby组合？的相关文章

将 python scikit learn 模型导出到 pmml

我想将 python scikit learn 模型导出到 PMML 中什么 python 包最适合我读到Augustus https github com opendatagroup augustus 但我找不到任何使用 scikit
Python 3：如何更改GDAL中的图像数据？

我有一个 GeoTIFF 图像其中包含颜色表和带有 8 位表键的单个栅格带并且使用 LZW 压缩我加载该图像gdal Open https gdal org python osgeo gdal module html 我还有一个包含
python 正则表达式中括号的奇怪行为

我正在编写一个 python 正则表达式它可以在文本文档中查找引用的字符串从黑匣子中记录的航空公司飞行员的引用我首先尝试编写具有以下规则的正则表达式返回引号之间的内容如果以 single 打开则仅在以 single 关闭时返回
为什么我在 Python 中收到“连接被拒绝”错误？（插座）

我是套接字新手请原谅我完全缺乏理解我有一个服务器脚本 server py usr bin python import socket import the socket module s socket socket Create a so
在 AWS Elastic Beanstalk 中部署 Flask 应用程序

当我部署 Flask 应用程序时它显示成功但是当我检索日志时我看到错误找不到 Flask 我的需求文件中有烧瓶任何帮助 Sat Jan 11 06 51 50 503908 2020 error pid 3393 remote 1
如何将当前日期分配给 odoo v8 中的日期字段？

我想将当前日期分配给以下代码中的日期字段 start date calendar obj create cr uid name rec res act ion user id rec res asgnd to id start date l
如何从 python 脚本更改 python 文件中的变量值

我目前有一个 python 文件其中包含一堆带有值的全局变量我想从一个单独的 python 脚本永久更改这些值我尝试过 setattr 等但似乎不起作用有没有办法做到这一点简短的回答是不不值得这么麻烦听起来您正在尝试创建一
Matplotlib 动画未显示

当我在家里的电脑上尝试这个时它可以工作但在工作的电脑上却不行这是代码 import numpy as np import matplotlib pyplot as plt import matplotlib animation as
多级QTreeView

我很难理解如何使用 QTreeView 和 QStandardItemModel 设置多级 QTree 这是我所拥有的 from PySide QtGui import import sys class MainFrame QWidget
如何将 NaN 数组插入 numpy 二维数组

我试图在二维数组中的特定位置插入任意数量的 NaN 值行我正在将来自微控制器的一些数据记录在 csv 文件中并使用 python 进行解析数据存储在 3 列 2D 数组中如下所示 122 0 1 0 47 0 123 0 1 0 47
Python lmfit：拟合 2D 模型

我正在尝试将二维高斯拟合到一些灰度图像数据该数据由一个二维数组给出 lmfit 库实现了一个易于使用的模型类它应该能够做到这一点不幸的是文档 http lmfit github io lmfit py model html http
模拟导入失败

我该如何制作import pkg失败moduleA py 我可以打补丁pkg如果从中导入某些内容则会失败否则不会失败 test py import os import moduleA from unittest mock import p
连接系统 R 中的两个或多个数据帧

我的问题是如何在 R 系统中连接两个或多个数据帧例如我有两个数据框 first x y z 1 3 2 4 2 4 5 7 3 5 6 8 second x y z 1 1 1 1 2 4 5 7 我需要这个 x y z 1 3 2 4
有没有办法在Python中调用子类定义的方法？

The init 方法定义了创建类的实例时要执行的操作创建子类时我可以做类似的事情吗假设我有抽象类Entity class Entity def onsubclasscreation cls for var in cls annotat
插入失败“OperationalError：没有这样的列”

我尝试使用我尝试修复的姓名和电话创建一个数据库但它会随时向我重播 File exm0 py line 14 in
python中不规则点之间的坐标列表

想象一下我们为 x 和 y 随机选择两个介于 0 到 100 之间的点例如 95 7 35 6 现在使用简单的 pygame draw line 函数我们可以轻松地在这些点之间绘制一条没有任何间隙的线我的问题是我们如何找到两点之间
NumPy 中 exp(-x^2) 的快速傅立叶变换

I have to calculate numerically the 2nd derivative of a Gaussian function I ve read every question on this topic here bu
嵌套 for 循环以列出具有不同“if”条件的理解

我正在尝试将此嵌套循环转换为列表理解但我不确定是否可能因为 tmp 列表中的项目可能有不同的值这是最好的方法吗谢谢 final for a in range 13 1 for b in range 0 4 for c in rang
如何在Python中检查元组是否包含元素？

我试图找到可用的方法但找不到没有contains 我应该使用index 我只想知道该项目是否存在不需要它的索引 You use in if element in thetuple whatever you want to do
保存 Jupyter Notebook，并显示 Plotly Express 小部件

我有一个 Jupyter 笔记本 python 我使用plotlyexpress 在笔记本中绘图以进行分析我想与非编码人员共享此笔记本并让交互式视觉效果仍然可用但它似乎不起作用我尝试以下此处提出的建议 https community

随机推荐

冷融合和分页

首先我对 ColdFusion 很陌生但学得很快因此我正在尝试构建一个大型数据库最初每页显示 25 行的所有结果并有一个下一个上一个链接来浏览页面这一切都工作正常但是当我执行搜索时当新结果显示大约几页时分页链接不起作用
Spring boot，禁用测试安全性

我使用 Spring Boot 版本 1 3 0 M5 我也尝试过版本 1 2 5 RELEASE 我添加了弹簧安全
将 Google 电子表格中的范围作为电子邮件发送（格式问题）

以下代码针对第 2 列和第 3 列中的数据发送一封电子邮件但电子邮件中的结果并不在另一个之下 Code gs function email var ss SpreadsheetApp getActiveSpreadsheet var bu
为什么 RegOpenKeyEx() 在 Vista 64 位上返回错误代码 2？

我正在拨打以下电话 result RegOpenKeyEx key s 0 KEY READ key C Visual Studio 5 Vista 64 位它失败并显示错误代码 2 找不到文件即使 regedit 表明该密钥存在此代
如何调试 Firefox 开发者工具附带的 Scratchpad 中编写的 JavaScript？

我想要一个独立的editor and debugger 基本上是一个IDE for JavaScript 我目前正在使用仅在命令行上运行独立脚本并在其中编辑它们的组合Notepad 有时还有Scratchpad进来的Firefox Deve
错误：“rJava”的包或命名空间加载失败

所以我尝试了之前对我的问题提出的答案但我仍然有相同的错误消息我正在尝试加载rJavaR 中的库 library rJava Error onLoad failed in loadNamespace for rJava details c
C# 8 使用声明范围混乱

使用新的 C 8 using 声明语法第二个连续的 using 语句的包含范围是什么 TL DR 在 C 8 之前有一个连续的 using 语句例如 using var disposable new MemoryStream usin
jQuery $.extend 不覆盖目标属性

是否可以扩展对象而不覆盖已设置的属性在下面的示例中我正在寻找一种方法为猫添加 2 个翅膀但保留它的 4 条腿 var cat legs 4 var bird legs 2 wings 2 some references in my a
如何更改多次提交的作者和提交者姓名/电子邮件？

如何更改一系列提交的作者注意此答案会更改 SHA1 因此在已推送的分支上使用它时要小心如果您只想修复名称的拼写或更新旧电子邮件 Git 可以让您无需使用重写历史记录即可完成此操作 mailmap See 我的另一个答案 https s
（以编程方式）比较 PDF 的可靠方法？ [复制]

这个问题在这里已经有答案了可能的重复比较大量 PDF 文件的工具 https stackoverflow com questions 145657 tool to compare large numbers of pdf files 我
如何在两个 boost::multi_arrays (C++) 之间执行数学运算？

如何在两个 boost multi arrays 之间执行数学运算添加两个值类型为 double 的数组的示例 auto array1 boost multi array
使用 Fourseven:scss 在 Meteor 中加载 css

我正在使用 fourseven scss 来编译 scss 文件如果我包括我的这似乎工作正常 scss客户端目录下的文件不过我想把它们留在我的组件附近 imports ui stylesheets 或者就在组件旁边 imports u
删除数组中的所有空间 javascript

我有一个数组需要从中删除空格例如它返回如下 book row boat rain coat 但是我想删除所有空白我在网上看到的所有指南都说可以使用 replace 但似乎只适用于字符串到目前为止这是我的代码 function t
sqlalchemy mixin、外键和关系

我在创建一个简单的 mixin 时遇到问题我计划在一堆 sqlalchemy 声明类上使用它基本想法是我想要一个创建修改时间戳和一个创建修改用户存储在多个表上 mixin 位于其自己的文件 global mixins py 中并且
Task.Result 始终为 null

我正在编写一些代码来通过 Task Factory FromAsync 在 WP7 应用程序中执行 HttpRequest 任务的 Result 属性始终为 null 但我知道请求本身是正确的因为如果我将其粘贴到浏览器或 Fiddler
如何使用 html 5 跳转到视频位置

我想使用 html5 video 标签来播放我的视频如何设置视频开始播放的时间例如我的视频长 90 秒我想在 30 秒时开始播放
程序崩溃并显示 0xC000000D 并且没有异常 - 如何调试它？

我有一个使用第三方库的 Visual C 9 Win32 应用程序当使用一组特定参数调用该库中的函数时程序会崩溃并显示异常代码 0xC000000D 我尝试附加 Visual Studio 调试器没有抛出异常 C 也没有像访问冲突那
Java ExecutorService：awaitTermination所有递归创建的任务

我用一个ExecutorService执行任务该任务可以递归地创建提交给同一个任务的其他任务ExecutorService这些子任务也可以做到这一点我现在遇到的问题是我想等到所有任务都完成即所有任务都完成并且他们没有提交新任务才继续
Xcode 将文件框中的 gpx 文件显示为灰色

我希望我没有忽略任何事情但我无法将 gpx 文件加载到 Xcode 中因为它们在文件框中显示为灰色见图这在两个位置菜单中都有在调试器位置菜单中参见下图将 GPX 文件添加到项目和场景位置菜单然而预设伦敦等确实有效
如何总结不同的groupby组合？

我正在编制一份按县列出的前 3 名作物的表格有些县的农作物品种相同顺序相同其他县也有相同的作物品种但顺序不同 df1 pd DataFrame County Harney Baker Wheeler Hood River Wasco

如何总结不同的groupby组合？

如何总结不同的groupby组合？ 的相关文章

随机推荐

热门标签

如何总结不同的groupby组合？的相关文章