Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

2024-06-26

我使用内存使用量较高的大数据帧，并且我读到，如果更改重复值列上的数据类型，我可以节省大量内存。

我尝试了一下，确实内存使用量下降了 25%，但随后我遇到了我无法理解的性能缓慢问题。

我对 dtype“类别”列进行分组聚合，在更改 dtype 之前大约需要 1 秒，更改后大约需要 1 分钟。

此代码演示了性能下降 2 倍：

import pandas as pd
import random

animals = ['Dog', 'Cat']
days = ['Sunday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday','Saturday']

columns_dict = {'animals': [],
                'days': []}

for i in range(1000000):
    columns_dict['animals'].append(animals[random.randint(0, len(animals)-1)])
    columns_dict['days'].append(days[random.randint(0, len(days)-1)])

# df without 'category' dtype
df = pd.DataFrame(columns_dict)

df.info(memory_usage='deep') # will result in memory usage of 95.5 MB

%timeit -n100 df.groupby('days').agg({'animals': 'first'})
# will result in: 100 loops, best of 3: 54.2 ms per loop

# df with 'category' dtype
df2 = df.copy()
df2['animals'] = df2['animals'].astype('category')

df2.info(memory_usage='deep') # will result in memory usage of 50.7 MB

%timeit -n100 df2.groupby('days').agg({'animals': 'first'})
# will result in: 100 loops, best of 3: 111 ms per loop

我试图了解这种缓慢的原因是什么以及是否有办法克服它。

Thanks!

我不确定这种速度下降的原因，但一种解决方法是直接存储类别代码：

df3 = df.copy()
animals = pd.Categorical(df['animals'])
df3['animals'] = animals.codes
df3.groupby('days').agg({'animals': 'first'}).apply(lambda code: animals.categories[code])

它不是最干净的解决方案，因为它需要外部元数据，但它实现了您正在寻找的内存效率和计算速度。深入研究 Pandas 内部所做的事情导致分类速度减慢会很有趣。

编辑：我追查了为什么会发生这种情况......作为first()聚合，熊猫calls np.asarray()在柱子上 https://github.com/pandas-dev/pandas/blob/0.22.x/pandas/core/groupby.py#L1258-L1271。对于分类列，这最终会将列转换回非分类列，从而导致不必要的开销。解决这个问题将是对 pandas 包的有用贡献！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

pandas

DataFrame

pandasgroupby

numpydtype

Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降的相关文章

python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
从 pandas 数据框中删除 NaN 值并重塑表[重复]

这个问题在这里已经有答案了给定一个包含列的数据框NaNs 如何转换数据框以删除所有NaN从列中示例数据框 import pandas as pd import numpy as np dataframe from list of lis
验证 PyPI Python 包的完整性

最近有一些消息传出恶意库已上传到 Python Package Index PyPI 请参阅 PyPI 上的恶意库 https www bleepingcomputer com news security ten malicious lib
“foreach”并行循环返回 s

我正在尝试并行处理多个列表项我的目标是根据每列的值运行一些标签函数然后返回带有节点名称列名称和处理后的标签的数据帧使用普通的 for 循环工作流程可以正常工作但是当我尝试在 foreach 循环中执行相同的操作时返回的结果
在 pandas 数据框中进行 groupby 后滚动前 3 个月的唯一计数

以下是数据框 Date Name data 01 01 2017 Alpha A 02 01 2017 Alpha A 03 01 2017 Alpha B 01 01 2017 Beta A 01 20 2017 Beta D 03 01
从 r 中的数据帧中删除每第 n 列

我试图通过删除每第三列来减小数据框的大小这是我的示例数据框 example data frame x c 1 2 3 4 y c 1 2 3 4 z c 1 2 3 4 w c 1 2 3 4 p c 1 2 3 4 q c 1 2 3
pandas 数据框到键值对

将以下 pandas 数据帧转换为键值对的最佳方法是什么 Before datetime name qty price 2017 11 01 10 20 apple 5 1 2017 11 01 11 20 pear 2 1 5 2017
无法在 Windows 中安装 mysql-python（较新版本）

I have mysql pythonv1 2 4 在我的机器 Windows 8 上安装得很好我正在使用Python 2 7 每次尝试升级到 v1 2 5 时我总是遇到以下错误从 v1 3 7 开始仍然发生 C Users User
如何在Python多处理中的所有进程之间共享数据？

我想在给定文章中搜索预定义的关键字列表如果在文章中找到关键字则分数加 1 我想使用多重处理因为预定义的关键字列表非常大 10k 个关键字文章数量为 100k 我碰到this https stackoverflow com quest
使用 loc 命令替换值

有一个数据框我需要replace值高于 512 时为 263 因此我首先使用此代码行来过滤索引 df loc df Fare gt 512 Fare astype int 这是结果 258 512 679 512 737 512 123
在 Scala Spark 和 PySpark 之间传递 SparkSession

我的要求是从现有的 PySpark 程序调用 Spark Scala 函数将 PySpark 程序中创建的 SparkSession 传递给 Scala 函数的最佳方法是什么我将 scala jar 传递给 Pyspark 如下所示 s
Pandas.read_excel：访问主目录

找到解决方案尝试使用以下命令访问我的主目录时我遇到了一些意外行为pandas read excel 我想要访问的文件可以在以下位置找到 users isys orsheridanmeth 这是哪里cd 带我去我想访问的文件是 work
Pandas dataframe.query 方法语法

问题我想更好地了解熊猫DataFrame query http pandas pydata org pandas docs stable generated pandas DataFrame query html方法以及以下表达式代表的含
如何计算两个邮政编码之间的距离？

我有一个美国邮政编码列表我必须计算所有邮政编码点之间的距离它是一个 6k 邮政编码长列表每个实体都有邮政编码城市州纬度经度面积和人口所以我必须计算所有点之间的距离即 6000C2 组合这是我的数据示例我已经在 SA
Python Pandas 全局变量与传递变量

我正在创建一个实时流程该流程从由 SierraChart 更新的专有格式 OHLCVTBA 文件中获取数据读取数据并使用生成器创建数据框的代码发布在pastebin上删除死链接我已经意识到我的结构新数据驱动是错误的我即将重
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
pandas groupby 中两个系列的最大值和最小值

是否可以从 groupby 中的两个系列中获取最小值和最大值例如下面的情况分组时c 我怎样才能得到最小值和最大值a and b同时 df pd DataFrame a 10 20 3 40 55 b 5 14 8 50 60 c x x

随机推荐

Elasticsearch-py 相当于别名操作的是什么？

我正在尝试实施倍数指数 https www elastic co guide en elasticsearch guide current multiple indices html multiple indices使用方法弹性搜索DSL
我的代码不适用于输入 1 和 1000 或任何其他更大的输入

当我尝试为输入 1 和 1000 运行此代码时它显示分段错误此代码中的更正是什么 void sorting int sum long int k int main int sum 100000 int L R i j long int
C++ 中的运算符重载

我怀疑我们是否可以做到以下几点假设我创建了两个类的实例A i e obj1 and obj2和班级A有会员功能show 我可以使用以下内容吗 obj1 obj2 show 如果是怎么办如果不是为什么不可能是的这是可能的只需为
如何更改解释器路径并将命令行参数传递给 Linux 上的“可执行”共享库？

这是可执行共享库的最小示例假设文件名 mini c Interpreter path is different on some systems definitely different for 32 Bit machines cons
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
如何修复无法更改 gradle 中配置策略的错误？

我在尝试通过 Gradle 构建项目时收到错误 gradle q acRpm FAILURE Build failed with an exception Where Script Users anarinsky eclipse works
如何使用NetLogo 6.2公平分配海龟？

我有一个问题我在这里寻求帮助如何使用 NetLogo 6 2 为每种配置文件类型均匀分配海龟 https stackoverflow com questions 70748349 how to make an equal distrib
在单独的类中录制和播放语音 (Swift3)

我使用了许多用于录制和播放声音的代码但其中大多数不在 swift3 中并且它们在我的应用程序中不起作用 This https github com genedelisa AVFoundationRecorder代码有效但我想从视图控制
“通用”现实世界文档的 JAXB 解组

我们有一大套该风格的配置文档
用于更改 Google 文档中文档所有者的脚本

StackOverflow 和 Google Apps 脚本的新增功能我感谢任何帮助指导任务我正在尝试编写一个 Google Apps 脚本它将指定文件夹中所有文件的所有权转移给一个所有者我是 Google Apps Premi
流行的“易失性轮询标志”模式被打破了吗？

假设我想使用布尔状态标志来进行线程之间的协作取消我意识到人们最好应该使用CancellationTokenSource反而这不是这个问题的重点 private volatile bool stopping public void Sta
如何将 qmake 转换为 cmake？

我有一个 pro我的项目上的文件但现在我想将其移植到CMakeLists txt文件我怎样才能做到这一点 QT core QT gui CONFIG c 11 TARGET test CONFIG console CONFIG app
使用innerHTML构建动态表格

我正在尝试使用innerHTML 在javascript 中构建动态表当Web应用程序运行时它只打印console log 但不构建表我尝试了两种方法 First success function data status jqXHR
如何创建带有可点击标签的复选框？

如何创建带有可单击标签的 HTML 复选框这意味着单击标签可打开关闭复选框方法一包裹标签标签将复选框包裹在label tag
如何在notepad++中将行转换为列

我怎样才能转换 testext to t e s t e x t 请注意没有分隔符有什么办法吗转到搜索查找替换 Ctrl F 并输入以下内容 Find 代替 1 n搜索模式 Regular Expression方向 Down 然后
如何注释掉 Doxygen 文档中的注释

我正在使用 Doxygen page subpage and section为我的应用程序制作概述文档的结构在此我使用 HTML 创建一个格式良好的表格但是我想删除输出中表的一部分而不删除注释本身例如 page MAINPAGE
为什么 jQuery 的 Promise 有 did()，而 Mozilla 记录的 Javascript 的 Promise 却没有？如果我想在 JS 中有一个 did() 该怎么办？

Mozilla 的 JavaScript 文档的 Promise 之间有什么区别请参阅API page https developer mozilla org en US docs Web JavaScript Reference Glo
VC++致命错误LNK1168：无法打开filename.exe进行写入

Suddenly my Visual Studio Express 2010 C stopped rebuilding my project When I first hit F7 the project builds and runs f
数据表 - 为最后一列添加 colspan 时不起作用

我在使用数据表时遇到问题当我为最后一列添加 colspan 时数据表插件不会应用于表如果我删除最后一个列的 colspan 并将其放入任何其他列它就可以工作例如 table width 100 border 0 cellspaci
Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

我使用内存使用量较高的大数据帧并且我读到如果更改重复值列上的数据类型我可以节省大量内存我尝试了一下确实内存使用量下降了 25 但随后我遇到了我无法理解的性能缓慢问题我对 dtype 类别列进行分组聚合在更改 dtype 之前

Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降 的相关文章

随机推荐

热门标签

Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降的相关文章