在 pandas 中使用 .loc 会减慢计算速度

2024-03-15

我有以下数据框，我想将底部 1% 的值分配给新列。当我使用“.loc”通知进行此计算时，使用 .loc 分配大约需要 10 秒，而替代解决方案只需 2 秒。

df_temp = pd.DataFrame(np.random.randn(100000000,1),columns=list('A'))
%time df_temp["q"] = df_temp["A"].quantile(0.01)
%time df_temp.loc[:, "q1_loc"] = df_temp["A"].quantile(0.01)

为什么 .loc 解决方案速度较慢？我知道使用 .loc 解决方案更安全，但如果我想将数据分配给列中的所有索引，直接分配会出现什么问题？

.loc正在沿着整个轴搜索 df 中的整个索引和列（在本例中，只有 1 列），除了计算出的分位数之外，这非常耗时，而且可能是多余的df_temp['A']（就计算时间而言，可以忽略不计）。另一方面，您的直接赋值方法只是解析df_temp['A'].quantile(0.01)，并分配df_temp['q']。它不需要详尽地搜索 df 的索引/列。

See 这个答案 https://stackoverflow.com/a/27597343/6671176对于类似的描述.loc method.

就安全性而言，您没有使用链式索引，因此您可能是安全的（您不会尝试在copy您的数据，它是直接在数据本身上设置的）。最好了解不使用的潜在问题.loc (see 这个帖子 https://www.dataquest.io/blog/settingwithcopywarning/一个很好的概述SettingWithCopy警告），但我认为就目前而言你还可以。

如果你想成为more明确你的列创建，你可以做一些类似的事情df = df.assign(q=df_temp["A"].quantile(0.01))。它不会真正改变性能（我不认为），也不会改变结果，但它允许您看到您明确地将新列分配给现有数据帧（因此不会在所述数据帧的副本上设置任何内容））。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

在 pandas 中使用 .loc 会减慢计算速度的相关文章

如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

从 ANDROID 2.2 发送 UDP 包（HTC 希望）

我有一个局域网我想从我的 android htcdesire 发送一条 udp 消息到我的电脑它们之间有一个 WLAN 路由器问题是 UPD 消息永远不会到达 PC Android上的代码 package org example an
JSON 架构允许日期或空字符串

我需要定义一个 JSON 模式其中输入可以是日期或空字符串我当前的 JSON 架构是 type object required FirstName DateOfBirth properties FirstName type string
R - 自动调整 Excel 列宽

如何使用自动调整列宽openxlsx 我的其中一列有一个日期变量例如21 08 2017 并且如果使用复制ctrl c从 Excel 中并正常粘贴到其他地方它显示为如果增加列宽以显示 Excel 中的内容则可以正常粘贴我想将重复
在 d3 中设置 id 问题

这就是我正在做的 selection canvas selectAll circle data mydata selection enter append circle selection attr id function d i var
Scala - Slick - 获取包装选项的 TypedType[T]

通常创建这样的自定义 ID case class CustomID value Int extends MappedTo Int 并用 Option CustomID 等类型表示可为 null 的自定义 ID 但是我希望能够将 Optio
为什么 >= 有效但 => 无效？

当检查一个整数是否等于或大于当前数字时所以我输入 if 5 gt 6 Bla 但它显示这是一个错误为什么这不是完全一样吗 if 5 gt 6 Bla 它不起作用的原因是因为 gt 不等于 gt gt 用于拉姆达表达式 http msd
Nil 和 List 作为 Scala 中的 case 表达式

此代码编译 def wtf arg Any arg match case Nil gt Nil was passed to arg case List gt List was passed to arg case gt otherwise
Java - split(regex, limit) 方法实际上如何工作？ [复制]

这个问题在这里已经有答案了我试图了解 split 方法的工作原理但对此有些困惑在 oracle 文档页面给出的这个示例中 String str boo and foo String str1 str split o 2 Output
如何在 AWS Lambda 函数中获取 AWS API Gateway 调用 URL？

我正在将代理集成与 Java lambda 函数结合使用 lambda 处理程序的输入是一个表示传入请求的 JSON 对象它有正文标头查询参数等但它不包括 API 网关解析的正文的源 URL 查询参数等有没有办法获取它问题是 A
姜戈树胡子 AL、NS、MP 之间有什么区别

我正在尝试制作一个模型来对某些对象进行分类我已经尝试使用 django mptt 轻松检索相关类别现在我正在搜索不同的解决方案以找到最好的解决方案我无法找出物化路径邻接列表和嵌套集之间的主要区别维基百科没有给我一个简短的答案我所
在 VB.Net 中获取 COM 对象的特定实例

我正在 Net 中编写一个 Windows 窗体应用程序以列出第三方 CAD CAM 软件在本例中为 CATIA 的所有正在运行的实例并让用户选择其中一个来执行几个自动化任务为了执行自动化任务我需要获取 COM 对象的特定实例与
我应该如何使用 Laravel 提供图像？

我将用户个人资料图片存储在 laravel 存储文件夹而不是公共文件夹中因为我想保持公共文件夹干净避免用户混乱为了从该文件夹提供图像我创建了一个简单的控制器操作如下所示 public function profilePicture
R：无法分配大于 x MB 的内存

我在 R 中有一个 main 函数它调用其他文件来运行我的程序我通过bat文件 exe 调用主文件当我逐行运行它时它运行时不会出现内存错误但是当我调用 bat 文件来运行它时它会停止并给出以下错误无法分配大于 51 MB 的内
如何将 lex 文件中的 yytext 传递给 yacc？

请我面临一个简单的问题这就是问题在我的 lex 文件中我有类似的内容 char ptr String name BEGIN sName
Pandas Dataframe - 向下移动行并维护数据

我的原始数据框 df column1 column2 0 1 a 1 2 b 2 3 c 3 4 d 4 5 e 5 6 f 我想将值向下移动 6 如下所示 column1 column2 0 1 2 3 4 5 6 1 a 7 2 b 8
我可以更改 python 首先查找模块的顺序吗？

假设我有一个脚本my tools py我作为模块导入但my tools py保存两次在C Python27 Lib并在运行执行导入的脚本的同一目录中我可以改变python查找的顺序吗my tools py第一的也就是说首先检查它是
如何将字符串与变量连接起来？

所以我试图用字符串和传递的变量这是一个数字创建一个字符串我怎么做我有这样的事情 function AddBorder id document getElementById horseThumb id className hand p
Shiny DT：排序时冻结行名？

我正在设计一个 Shiny 应用程序根据各种指标对人们进行排名使用数据排序功能我希望用户能够单击任何列并按其排序使用行名作为排名似乎很自然问题是这些数字与表的其余部分一起排序有什么方法可以冻结此列以便在表的其余部分排序时排名数
我无法在 main 方法中调用 repaint() 方法

每次我尝试调用 repaint 方法时它都会说静态方法不能引用非静态方法顺便说一句它与 PaintComponent 方法位于同一类中我尝试首先从类中创建一个对象然后使用对象名称引用它但它也不起作用请帮忙 public cla
在 pandas 中使用 .loc 会减慢计算速度

我有以下数据框我想将底部 1 的值分配给新列当我使用 loc 通知进行此计算时使用 loc 分配大约需要 10 秒而替代解决方案只需 2 秒 df temp pd DataFrame np random randn 10000000

在 pandas 中使用 .loc 会减慢计算速度

在 pandas 中使用 .loc 会减慢计算速度 的相关文章

随机推荐

热门标签

在 pandas 中使用 .loc 会减慢计算速度的相关文章