Groupby 应用自定义函数 Pandas

2024-05-14

我正在尝试在 pandas 中应用类似于 dplyr 中的 groupby 和 mutate 功能的自定义函数。

我想做的是给出这样的 pandas 数据框：

df = pd.DataFrame({'category1':['a','a','a', 'b', 'b','b'],
  'category2':['a', 'b', 'a', 'b', 'a', 'b'],
  'var1':np.random.randint(0,100,6),
  'var2':np.random.randint(0,100,6)}
)

df
  category1 category2  var1  var2
0         a         a    23    59
1         a         b    54    20
2         a         a    48    62
3         b         b    45    76
4         b         a    60    26
5         b         b    13    70

应用一些函数，该函数返回与分组中的元素数量相同的元素数量：

def myfunc(s):
  return [np.mean(s)] * len(s)

得到这个结果

df
  category1 category2  var1  var2   var3
0         a         a    23    59   35.5
1         a         b    54    20   54
2         a         a    48    62   35.5
3         b         b    45    76   29
4         b         a    60    26   60
5         b         b    13    70   29

我在想一些类似的事情：

df['var3'] = df.groupby(['category1', 'category2'], group_keys=False).apply(lambda x: myfunc(x.var1))

但无法获得匹配的索引。

在带有 dplyr 的 R 中，这将是

df <- df %>%
  group_by(category1, category2) %>%
  mutate(
    var3 = myfunc(var1)
  )

所以我能够通过使用自定义函数来解决这个问题，例如：

def myfunc_data(data):

  data['var3'] = myfunc(data.var1)
  return data

and

df = df.groupby(['category1', 'category2']).apply(myfunc_data)

但我想我仍然想知道是否有一种方法可以在不定义此自定义函数的情况下做到这一点。

Use GroupBy.transform https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.DataFrameGroupBy.transform.html退货Series与原件尺寸相同DataFrame，因此可以分配给新列：

np.random.seed(123)

df = pd.DataFrame({'category1':['a','a','a', 'b', 'b','b'],
  'category2':['a', 'b', 'a', 'b', 'a', 'b'],
  'var1':np.random.randint(0,100,6),
  'var2':np.random.randint(0,100,6)}
)

df['var3'] = df.groupby(['category1', 'category2'])['var1'].transform(myfunc)
print (df)
  category1 category2  var1  var2  var3
0         a         a    66    86    82
1         a         b    92    97    92
2         a         a    98    96    82
3         b         b    17    47    37
4         b         a    83    73    83
5         b         b    57    32    37

替代方案lambda function:

df['var3'] = (df.groupby(['category1', 'category2'])['var1']
                .transform(lambda s: [np.mean(s)] * len(s)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

dplyr

Groupby 应用自定义函数 Pandas 的相关文章

使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
对 numpy 数组的每 n 个元素求平均值

我有一个 numpy 数组我想创建一个新数组它是每个连续三元组元素的平均值因此新数组的大小将是原始数组的三分之一举个例子 np array 1 2 3 1 2 3 1 2 3 应该返回数组 np array 2 2 2 谁能建议一
Python：os.remove 不起作用

为什么不是os remove string 为我工作我的代码写如下 try os remove a output current time trmv successful message message n output message
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
我应该使用 Pylons 还是 Pyramid？

我本来打算从 Django 迁移到 Pylons 但后来我遇到了 Pyramid 塔架和金字塔有什么区别我读了一些文字塔书 http pylonsbook com 目前涵盖 Pylons 0 9 7 并且想知道它是否是 Pylons 和
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
无法启动 Windows 快捷方式

我正在尝试使用 python 启动 Windows 我已经尝试了 os system subprocess call os startfile 等多种方法但总是收到错误消息指出路径不存在我知道路径是正确的因为我尝试在 CMD EXE
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
张量流 - 向量中的前 k 个值到二进制向量

假设我有一个带有值的向量 0 4 1 2 8 7 0 2 如何获得前 k 个值的二进制向量 k 3 0 1 0 0 1 1 0 0 in 张量流 TensorFlow 的tf math top k https www tensorflow
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
禁用或限制 /o/applications（django rest 框架、oauth2）

我目前正在使用 Django Rest 框架编写 REST API 并使用 oauth2 进行身份验证使用 django oauth toolkit 我对他们俩都很满意他们做的正是我想要的然而我有一个担忧我正在将我的应用程序传递到
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
使用 python 将多个 JSON 文件插入 MongoDB

JSON文件如下a json b json z json 26个json文件每个文件的 json 格式如下 a cappella word a cappella wordset id 5feb6f679a meanings id 4920
无法使用python和beautifulsoup抓取网页中的某些href

我目前正在使用 Python 3 4 和 bs4 爬取网页以收集塞尔维亚在里约 2016 年的比赛结果所以网址here http rio2016 fivb com en volleyball women teams srb serbia
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
从值数组中计算 sympy 表达式

我正在尝试 sympy 但遇到了一个无法解决的问题使用 scipy 我可以编写一个表达式并计算 x 值数组如下所示 import scipy xvals scipy arange 100 100 0 1 f lambda x x 2 f
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决

随机推荐

如何使用Shopify API更改订单的付款状态？

我正在为我自己的 Shopify 商店构建 iOS 应用程序我创建了一个私有应用程序并使用 API 密钥和密码来调用以下格式的 API https apikey password hostname admin resource json
使用python shelve跨平台

我希望得到关于 Python 中的书架数据库的一些建议问题我在 Mac 上创建了一个数据库我想在 Windows 7 上使用该数据库我使用 Python 3 2 MacOS 10 7 和 win 7 当我在 Mac 上打开并保存我
pip 安装 MySQL-python

我正在尝试在 Mac OS 上安装 MySQLdb for Python 当我数字pip install MySQL pythonshell 返回这样的内容 Collecting MySQL python Using cached http
XAML 网格可见性转换？

我有一个网格其可见性绑定到我的视图模型中的属性这一切都工作正常网格正确地出现消失我的问题是如何应用过渡以便网格内容滑入 UI 边缘而不是立即从屏幕上消失当它可见时它应该再次滑出
swift 中闭包和函数作为参数的区别

我有将近 4 年的 Objective C 经验并且是 swift 的新手我试图从 Objective C 的角度理解 swift 的概念所以如果我错了请指导我在目标 c 中我们有块可以稍后异步执行的代码块这绝对是完全合理的
在工具栏下显示内容

您好我试图简单地将我的内容放在工具栏下方但是当我运行我的应用程序时某些内容本应位于工具栏下方却隐藏在工具栏后面我已经阅读了有关使用框架布局来尝试将其分离的内容但我有点卡住了我目前正在使用该软件提供的基本 android stu
Twig：如何获取字符串中的第一个字符

我正在实施按字母顺序搜索我们显示一个名称表我只想突出显示那些名称以相应字母开头的字母我被一个简单的问题难住了如何读取 twig 中字符串 user name 的第一个字符我尝试了多种策略包括 0 操作但它抛出异常这是代码 f
Burn in WiX 3.6 如何将 MSI 文件捆绑到 .exe 中？

我有兴趣了解 WiX 如何捆绑使用 Burn 创建的 EXE 文件我知道创建一个自解压 EXE 文件非常简单我已经完成了一百万次了WinRAR http en wikipedia org wiki WinRAR EXE 文件解压到哪个目
使用 MemoryStream 创建 Open XML 电子表格时的 Excel 和“不可读内容”

使用 Open XML SDK v2 0 创建 Excel 电子表格时我们的 Excel 输出最初可以成功运行几个月最近Excel 所有版本开始抱怨 Excel在 zot xlsx 中发现不可读的内容是否要恢复此工作簿的内容我们正
使用 React Native 的 FlatList 进行 Swiper

我想让我的水平 FlatList 启用分页向左或向右滚动使内容始终位于屏幕中央并且下一个和上一个内容仍然出现 Something like this for the horizontal actions But unfortunate
直方图均衡结果

I am trying to code histogram equalization by my self but the results are different from the built in function in matlab
从 Angular-ui 引导日期选择器中删除周列和按钮

我在用Angular UI Bootstrap 日期选择器 http angular ui github io bootstrap datepicker 现在我需要从日期选择器中删除 week 列和周按钮我的应用程序的多种形式都使用了这个
学习实体框架[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用全文搜索查找精确匹配

使用 Sql Server 2008 如何使用全文搜索来实际找到精确的字符串匹配我对此感到非常困难而且我在网上找不到令人满意的解决方案例如如果我正在搜索字符串 Bojan Skrchevski 我希望第一个结果正是如此到目前为止
计算数字的二进制表示形式中 1 的数量的最佳方法。 (MIPS)

我需要计算二进制数中 1 的数量比如说 5 所以 00001001 将是 2 或 n 2 我正在使用 MIPS 最好的方法来做到这一点最好的方法是count them 您可以检查是否设置了最低有效位 a1 by and用一个来代替它如
在 Firebase 中为 TextView Swift 保存字体和大小的方法是什么

我想在 Firebase 中保存 Swift 中 TextView 的字体大小和对齐方式这样我就可以在另一个视图中调用它我只能将颜色保存在 Firebase 中这是显示我是如何做到的的代码 IBAction func SendBtn
如何在发送邮件之前验证 smtp 凭据？

我需要验证在中设置的用户名和密码SmtpClient发送邮件之前的实例使用此代码 SmtpClient client new SmtpClient host client Credentials new NetworkCredential
如何删除或更改默认帮助命令？

如何删除或至少更改discord py 中默认帮助命令的格式我认为改变格式会很好我根本不喜欢这种格式尝试这个 bot remove command help 在导入之后将其放在代码的顶部然后创建你自己的或者要格式化它请检查一下
升级到最新支持库后Android JACK编译器错误

Android Studio 2 2 3 Windows 10 64位构建工具版本 25 Android Gradle插件版本2 2 3 升级到最新的支持库从 23 4 0 到 25 1 0 并更改编译版本从 23 到 25 后我收
Groupby 应用自定义函数 Pandas

我正在尝试在 pandas 中应用类似于 dplyr 中的 groupby 和 mutate 功能的自定义函数我想做的是给出这样的 pandas 数据框 df pd DataFrame category1 a a a b b b cate

Groupby 应用自定义函数 Pandas

Groupby 应用自定义函数 Pandas 的相关文章

随机推荐

热门标签