Pandas groupby/apply 对 int 和 string 类型有不同的行为

2024-03-21

我有以下数据框

和两个非常相似的不同功能

def func1(x):
    if x.iloc[0]['X'] == 'A':
        x['D'] = 1
    else:
        x['D'] = 0
    return x[['X', 'D']]

def func2(x):
    if x.iloc[0]['X'] == 'A':
        x['D'] = 'u'
    else:
        x['D'] = 'v'
    return x[['X', 'D']]

现在我可以分组/应用这些函数

df.groupby('X').apply(func1)
df.groupby('X').apply(func2)

第一行给了我我想要的，即

但第二行返回了一些很奇怪的东西

   X  D
0  A  u
1  A  u
2  A  u
3  A  u
4  A  u
5  A  u
6  A  u
7  A  u

所以我的问题是：

谁能解释为什么类型更改时 groupby/apply 的行为会有所不同？
我怎样才能得到类似的东西func2?

问题很简单，应用于 GroupBy 的函数应该never尝试更改它收到的数据帧。它是副本（可以安全地更改，但在原始数据帧中看不到更改）还是视图，取决于实现。该选择是由 pandas 优化器完成的，作为用户，您应该知道它是被禁止的。

正确的方法是强制复制：

def func2(x):
    x = x.copy()
    if x.iloc[0]['X'] == 'A':
        x['D'] = 'u'
    else:
        x['D'] = 'v'
    return x[['X', 'D']]

在那之后，df.groupby('X').apply(func2).reset_index(level=0, drop=True)按预期给出：

   X  D
0  A  u
1  A  u
2  A  u
3  A  u
4  B  v
5  B  v
6  B  v
7  B  v

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

apply

pandasgroupby

Pandas groupby/apply 对 int 和 string 类型有不同的行为的相关文章

Django 管理中的嵌套内联？

好吧我有一个相当简单的设计 class Update models Model pub date models DateField title models CharField max length 512 class Post mode
为什么通过selenium切换到alert不稳定？

为什么通过selenium切换到alert不稳定例如 1 运行代码一切顺利一切都很顺利但如果这段代码在几分钟内运行那么可能会出现错误例如没有可以单击的元素等等 2 在一个站点上有一个警报窗口 alert driver swi
如何从 python 脚本更改 python 文件中的变量值

我目前有一个 python 文件其中包含一堆带有值的全局变量我想从一个单独的 python 脚本永久更改这些值我尝试过 setattr 等但似乎不起作用有没有办法做到这一点简短的回答是不不值得这么麻烦听起来您正在尝试创建一
Unpickle 二进制文件为文本[重复]

这个问题在这里已经有答案了我需要对基本上如下所示的系统进行一些维护复杂的遗留Python程序 gt 二进制pickle文件 gt 另一个复杂的遗留Python程序这需要准确弄清楚中间 pickle 文件中的内容我怀疑文件格式比生成和
Python - 如何将双引号附加到字符串并存储为新字符串？

我正在使用 Python 2 6 并且想将双引号附加到字符串并将其存储为新的字符串变量我不想打印它但稍后在我的 python 脚本中使用它例如 a apple b some function a gt b would be equal
scipy 的 curve_fit 函数的尺寸问题

我对 python 中的曲线拟合以及一般的 python 都很陌生目前我正在尝试使用 scipy 中的 curve fit 模块来拟合 4 个光谱峰简而言之我的文本文件中有两列数据所以我的第一步是将数据导入到两个数组中一个包含
Python lmfit：拟合 2D 模型

我正在尝试将二维高斯拟合到一些灰度图像数据该数据由一个二维数组给出 lmfit 库实现了一个易于使用的模型类它应该能够做到这一点不幸的是文档 http lmfit github io lmfit py model html http
如何在 PyCharm 中启用 flake8 的自动代码格式化

我使用 Tox 运行单元测试并使用 flake8 命令检查代码格式错误每次我在 PyCharm 中编码时我都会运行 tox 然后意识到我有一堆烦人的格式错误我必须返回并手动修复我希望 PyCharm 自动格式化代码根据 flak
模拟导入失败

我该如何制作import pkg失败moduleA py 我可以打补丁pkg如果从中导入某些内容则会失败否则不会失败 test py import os import moduleA from unittest mock import p
OpenCV 在使用 anaconda 的 Linux 上无法与 python 正常工作。收到 cv2.imshow() 未实现的错误

这就是我得到的确切错误我的操作系统是 Ubuntu 16 10 OpenCV 错误未指定错误该功能未实现使用 Windows GTK 2 x 或 Carbon 支持重新构建库如果您使用的是 Ubuntu 或 Debian 请安装
在 Django 1.9 中使用信号

在 Django 1 8 中我能够使用信号执行以下操作一切顺利 init py from signals import 信号 py receiver pre save sender Comment def process hashtag
有没有办法在Python中调用子类定义的方法？

The init 方法定义了创建类的实例时要执行的操作创建子类时我可以做类似的事情吗假设我有抽象类Entity class Entity def onsubclasscreation cls for var in cls annotat
插入失败“OperationalError：没有这样的列”

我尝试使用我尝试修复的姓名和电话创建一个数据库但它会随时向我重播 File exm0 py line 14 in
python中不规则点之间的坐标列表

想象一下我们为 x 和 y 随机选择两个介于 0 到 100 之间的点例如 95 7 35 6 现在使用简单的 pygame draw line 函数我们可以轻松地在这些点之间绘制一条没有任何间隙的线我的问题是我们如何找到两点之间
了解 Tensorflow 中的 while 循环

我正在使用用于 Tensorflow 的 Python API https www tensorflow org api docs python 我正在努力实施罗森布罗克函数 https www sfu ca ssurjano rosen
Kivy：滚动缩放

有没有办法在桌面 kivy 应用程序上放大图像例如使用鼠标滚轮缩放这里似乎讨论过 https github com kivy kivy issues 3563 https github com kivy kivy issues 3563
分别计算男女宿舍

我想要的结果是这样的 males 1990 Q1 value Q2 value Q3 Value Q4 Value females Q1 value Q2 value Q3 Value Q4 value 如果任何值不存在则默认值 0 imp
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
jupyter run magic 将参数传递给笔记本

当您在第一个 jupyter 笔记本 first ipynb 中时您可以执行第二个但如何传递参数呢假设第二个有以下内容 xx 10 您可以从第一个调用第二个如下所示 run second ipynb xx will print 10
预提交钩子 git 错误

我正在尝试在 python 中执行预提交 git hook 以检查文件的行长度是否小于 80 个字符但是我收到没有此类文件目录的错误我在 fedora 上并设置了 usr bin python help 将不胜感激 usr bin e

随机推荐

错误：invalid_scope - 此应用尚未经过验证可以访问

以前有人经历过这个错误吗我一直在研究测试并努力让这个错误消失但似乎没有任何效果这是与以下帖子类似的问题错误 invalid scope google 读取联系人信息 https stackoverflow com question
分解 Chrome 存储同步项目的算法

我正在尝试使用 chrome storage sync set 保存一个字符串更正它是一个包含多个不同大小的字符串的对象但收到错误错误超出 QUOTA BYTES PER ITEM 配额这是因为限制为 8092 所以我想将字符串
使用构建标签进行Android根检测？

以下方法是我们以编程方式检测 Android 设备是否已 root 的方法之一 public boolean checkRootMethod1 String buildTags android os Build TAGS if buildT
从数组末尾切片 NSArray

切片的最佳方法是什么NSArray从数组的末尾而不是开头开始例如查找包含 a 的最后几个元素的子数组 NSArray长度未知在 Python 中您可以使用负索引来完成此操作例如 new list old list 5 3 在 O
VBA - 使用数字选择列？

我正在寻找替代方案code 但使用数字我想选择5列起始列是一个变量然后它从中选择5列 Columns A E Select 我该如何使用integers相反参考列像下面这样的东西 For n 1 to 5 Columns n n
三个条件的排列最快的算法是什么？

有人可以帮助我了解以最少的步骤评估三个条件的最快方法吗我有三个条件如果两个条件中的任何一个为真那么整个表达式就变成了true else false 我尝试过两种方法 if condition1 condition2 condition
如何在 QuickFIX/J 中对传出消息中的字段进行排序

有没有办法在不重建 QuickFIX J 的情况下对传出消息中的字段进行排序或者任何可用的配置标志可以根据我们可能使用某些路径标志设置的任何验证文件对消息进行排序 See the QuickFIX J 用户常见问题解答 https www
std::cin 输入带空格？

include
未找到类“Memcached”-（php 5.4.9，windows 7）

我在 Windows 7 64 位机器上安装了 php 5 4 9 32 位并将其配置为作为 php fpm 进程运行我的 Web 应用程序需要 memcached 因此在我的 php ext 文件夹中安装了 memcached 守护
如何使用 JPA Criteria API 指定左连接的多个条件？

我想转换以下 SQL 查询 select from region tree country left outer join region tree region on country REG CODE PAR region REG CODE
当它是引用类型的字段时，是否是值类型装箱？

有代码 struct A int b class B A a int b 问题是 B 中的 a 是否已装箱 B 中的 a 位于栈中还是堆中 A 中的 b 是否已装箱 b是在A栈中还是在堆中 B 中的 b 是否已装箱 b是在B栈中还是在堆中
使用 pyodbc 时 SQL 查询失败，但在 SQL 中可以工作

我在一个非常简单的脚本上遇到了一些麻烦我只是想使用 Python pyodbc 模块创建一个新的 SQL Server 数据库当我在 SQL Server 2012 中执行它时我尝试传入的 sqlcommand 参数工作正常但该 p
构建动态 LINQ 查询的最佳方法

您好我正在寻找编写动态 LINQ 查询的最佳方法我有一个类似的功能 public IQueryable
mysql数据库中的序列化数据需要组合成一个数组

我正在 PHP MySQL 工作我的数据库中有一个名为 hourly 的表该表中有一个名为 webaddress 的列这些列已序列化每列网址有多行每个网址都是序列化的我需要拉出每一行取消它们的序列化然后将它们放入一个数组中
在 Swing 应用程序中运行 SWT 组件

我想知道是否有人有尝试运行 Swing 组件内托管的复杂 SWT UI 的经验我已经成功地进行了一个非常简单的演示但如果其他人尝试过并且失败成功地做到了这一点那么从他们的经验中学习将是很棒的因此重申一下我的应用程序是一个 Sw
Windows 上的 JDialog 超出了 Windows 任务栏。有什么解决方法吗？

这个问题 https stackoverflow com questions 6422931 why jframe hides taskbar when maximized讨论 JFrames 扩展到 Windows 任务栏的一个已知错误
Delphi和HDD I/O引用、资源预缓存、读/写/查找参数限制

我有充满字节的动态数组这些数组是使用 BlockRead 从 raw 文件中读取的从逻辑上讲此操作需要大量的 Shell 资源我想知道是否有任何方法可以保留一定数量或限制最大数量读写查找用于程序运行时从硬盘驱动器澄清我的意思
通过 Git Hub 秘密传递 build.gradle android 中的 local.properties

我正在尝试自动化 Android 应用程序的构建过程我已将 baseUrl 存储在 local properties 文件中并通过 Github 秘密传递文件内容但 Github 操作一直失败构建 gradle def propFi
使用 Linq2SQL 删除记录时出错

我最近收到了客户的错误报告但没有解决它我希望有人能给我一些可能出错的见解这个错误看起来很简单 Csla DataPortalException DataPortal Delete 失败 System InvalidOperationE
Pandas groupby/apply 对 int 和 string 类型有不同的行为

我有以下数据框 X Y 0 A 10 1 A 9 2 A 8 3 A 5 4 B 100 5 B 90 6 B 80 7 B 50 和两个非常相似的不同功能 def func1 x if x iloc 0 X A x D 1 else x

Pandas groupby/apply 对 int 和 string 类型有不同的行为

Pandas groupby/apply 对 int 和 string 类型有不同的行为 的相关文章

随机推荐

热门标签

Pandas groupby/apply 对 int 和 string 类型有不同的行为的相关文章