在 pandas 中高效使用替换

2024-03-24

我正在寻找使用replace在 python3 中以有效的方式运行。我拥有的代码正在完成任务，但速度太慢，因为我正在处理大型数据集。因此，每当需要权衡时，我的首要任务是效率而不是优雅。这是我想做的一个玩具：

import pandas as pd
df = pd.DataFrame([[1,2],[3,4],[5,6]], columns = ['1st', '2nd'])

       1st  2nd
   0    1    2
   1    3    4
   2    5    6


idxDict= dict()
idxDict[1] = 'a'
idxDict[3] = 'b'
idxDict[5] = 'c'

for k,v in idxDict.items():
    df ['1st'] = df ['1st'].replace(k, v)

这使

如我所愿，但这需要太长时间。最快的方法是什么？

编辑：这是一个比this https://stackoverflow.com/questions/41985566/pandas-replace-dictionary-slowness一，其解决方案类似。

use map http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html#pandas.Series.map执行查找：

In [46]:
df['1st'] = df['1st'].map(idxDict)
df
Out[46]:
  1st  2nd
0   a    2
1   b    4
2   c    6

避免出现没有有效密钥可以通过的情况na_action='ignore'

您还可以使用df['1st'].replace(idxDict)但回答你关于效率的问题：

timings

In [69]:
%timeit df['1st'].replace(idxDict)
%timeit df['1st'].map(idxDict)

1000 loops, best of 3: 1.57 ms per loop
1000 loops, best of 3: 1.08 ms per loop

In [70]:    
%%timeit
for k,v in idxDict.items():
    df ['1st'] = df ['1st'].replace(k, v)

100 loops, best of 3: 3.25 ms per loop

所以使用map这里速度快了 3 倍以上

在更大的数据集上：

In [3]:
df = pd.concat([df]*10000, ignore_index=True)
df.shape

Out[3]:
(30000, 2)

In [4]:    
%timeit df['1st'].replace(idxDict)
%timeit df['1st'].map(idxDict)

100 loops, best of 3: 18 ms per loop
100 loops, best of 3: 4.31 ms per loop

In [5]:    
%%timeit
for k,v in idxDict.items():
    df ['1st'] = df ['1st'].replace(k, v)

100 loops, best of 3: 18.2 ms per loop

对于 30K 行 df，map大约快 4 倍，因此可扩展性比replace或循环

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 pandas 中高效使用替换的相关文章

如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

为什么将 NaN 转换为 long 会产生有效结果？

在下面的示例代码中我除以零当我使用调试器单步调试它时被除数除数会产生无穷大或 NaN 如果除数为零当我将此结果转换为 long 时我会得到一个有效结果通常类似于 9223372036854775808 为什么这个演员阵容有效
在电子邮件中设置 tr 或 td 样式？

我想更改整行单元格的背景颜色和字体大小和内联样式因为我不能使用样式表或
Xunit 多个 IClassFixtures

我的问题是如何在一个测试类中设置多个装置但是Zoo类的构造函数不能处理多个灯具例如 public class Zoo IClassFixture
Symfony2 访问服务中的用户和学说

我在很多控制器操作中运行与此代码等效的代码基本上它会获取用户的用户名如果该用户名附加到博客实体它将允许用户查看博客实体 em this gt getDoctrine gt getManager user this gt get sec
Swift - 具有类型和协议的属性

在我的 Objective C 类之一中我有一个 type 属性UIViewController
由于多部分无法加载文件：未找到边界

我正在尝试从桌面上传图像但未找到多部分边界的错误如何设置图片上传的边界这是我第一次上传图片请大家多多指教用户上传图片时的html事件监听器 document getElementById image file addEventLi
通过 openshift 服务器在移动设备上出现 https 安全证书不受信任错误

我正在 openshift 上启动一个应用程序我从 namecheap 购买了 comodo Positive ssl 并按照说明在 openshift 上安装它在桌面浏览器上运行良好但在 Android 浏览器上出现以下不可信错
在 Grails 中，命令“tomcat:deploy”不会像命令“dev war”那样生成完整的战争

命令 grails dev war 完美部署在我的本地 Tomcat6 服务器中生成了一个包含以下文件夹的战争 css images js META INF plugins WEB INF 不幸的是我需要该命令tomcat 部署也有效
如何仅迭代元组的第一个变量

在Python中当你有一个元组列表时你可以迭代它们例如当你有 3d 点时 for x y z in points pass do something with x y or z 如果您只想使用第一个变量或者第一个和第三个变量该怎
case 表达式中是否可以使用不同的数据类型？

我有这个查询 SELECT CASE WHEN dbo CFE PPHY P77 IS NOT NULL OR dbo CFE PPHY P77 lt gt THEN MONTH dbo CFE PPHY P77 WHEN dbo CFE
直接使用GET和POST有哪些漏洞？

我想知道有哪些漏洞而直接使用 GET 和 POST 变量即没有修剪和addslashes函数和mysql转义字符串之类的东西我的问题是我们还需要照顾什么在使用 GET 和 POST 时有哪些类型的攻击比如SQL注入一般来说不仅限
将字符串转换为类对象[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我使用将类对象存储到字符串中toSt
如何将一个巨大的文件分割成多个单词？

如何从文本文件中读取很长的字符串然后对其进行处理拆分为单词我尝试过StreamReader ReadLine 方法但我得到了OutOfMemory例外显然我的队伍非常长这是我的读取文件的代码 using var streamR
日期范围内的日期范围

实际上这个任务对我来说似乎很容易但我有点卡住了非常感谢一些提示 D 我有一些带有开始和结束时间的事件我想创建一个包含日历周的表格因此我编写了一个方法来检查本周内是否有事件并将其着色如下 private boolean inWee
通过 f11 启用全屏后通过 javascript 禁用全屏

通过按下面的按钮我可以启用和禁用全屏模式但按下 f12 后我无法禁用全屏模式我参考了其他答案他们只提供了一种方法来检测窗口是否处于全屏模式我是无法获取从全屏禁用全屏模式的代码通过 f11 键制作我尝试通过代码触发 f11 但
以 PDF 形式通过电子邮件发送 Google 表格

我有这个脚本它通过电子邮件向我发送 Google 电子表格的 PDF 我只希望它通过电子邮件将第一个选项卡发送给我如果可能的话将其作为单个 PDF 或 zip 文件发送给我想知道是否有人可以提供帮助另外其中一个选项卡是隐
使用 Rcpp 将目标文件链接到函数的简化示例[重复]

这个问题在这里已经有答案了我现有的 C 代码由三个文件组成头文件 h 文件库文件 o 文件和源文件它们目前在 UNIX 下运行并在 Matlab 中编译为 mex 文件我想使用 Rcpp 将它们移植到 R 它们都又长又复杂所
R中的随机森林对训练数据的大小有限制吗？

我正在使用我的训练数据训练随机森林该数据有 114954 行和 135 列预测变量我收到以下错误 model lt randomForest u b stars data traindata importance TRUE do tr
可以通过 XML 定义 bean 构造型吗？

是否可以通过 XML 定义 bean 构造型如下
在 pandas 中高效使用替换

我正在寻找使用replace在 python3 中以有效的方式运行我拥有的代码正在完成任务但速度太慢因为我正在处理大型数据集因此每当需要权衡时我的首要任务是效率而不是优雅这是我想做的一个玩具 import pandas as

在 pandas 中高效使用替换

在 pandas 中高效使用替换 的相关文章

随机推荐

热门标签

在 pandas 中高效使用替换的相关文章