在 Pandas DataFrame 子集（副本）上设置值很慢

2024-01-03

import timeit
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(10, 10))

dft = df[[True, False] * 5]
# df = dft
dft2 = dft.copy()

new_data = np.random.rand(5, 10)

print(timeit.timeit('dft.loc[:, :] = new_data', setup='from __main__ import dft, new_data', number=100))
print(timeit.timeit('dft2.loc[:, :] = new_data', setup='from __main__ import dft2, new_data', number=100))

在我的笔记本电脑上设置值dft（原始子集）比设置值慢大约 160 倍dft2（深拷贝dft).

为什么会这样呢？

Edit：删除了有关代理对象的猜测。

作为c。 Leather 表明，这可能是因为在副本上设置值时使用了不同的代码路径（dft) 与原始数据框 (dft2).

额外问题：删除对原始 DataFrame 的引用df（通过取消注释df = dft线），在我的笔记本电脑上将速度系数降低到大约 2。知道为什么会这样吗？

这不完全是一个新问题。This https://stackoverflow.com/questions/22532302/pandas-peculiar-performance-drop-for-inplace-rename-after-dropna, and this https://stackoverflow.com/questions/17960511/pandas-subindexing-dataframes-copies-vs-views是相关帖子。这是当前文档的链接 http://pandas-docs.github.io/pandas-docs-travis/indexing.html?highlight=view#indexing-view-versus-copy这就解释了这一点。

@c.leather 的评论是正确的。问题是dft是一个视图，而不是数据框的副本df，如链接文章中所述。但是 pandas 无法知道它是否真的是副本以及操作是否安全，因此需要进行大量检查以确保执行分配是安全的，而这可以通过简单地避免复印。

这是一个相关问题，在Github https://github.com/pydata/pandas/issues/10954。我看到了很多建议，我最喜欢的一个是文档应该鼓励df[[True,False] * 5].copy()习语，我们可以将其称为“切片和复制”习语。

我找不到确切的检查，并且在 github 问题上，仅通过一些开发人员发布的一些推文提到了这种性能细微差别，指出了这种行为。也许更多参与 pandas 开发的人可以添加更多的意见。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas DataFrame 子集（副本）上设置值很慢的相关文章

Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

实体框架返回与数据库查询不同的数据

我可以查看数据库中的某些数据它会返回我期望的数据例如 Call Date To From Phone Number 20 1 2010 00 00 23 59 08923233223 20 1 2010 00 00 23 59 0892
通过电子邮件和密码使用 firebase 注册用户？

我使用 Firebase 授权创建了注册活动并尝试注册新用户但是当我按下注册按钮时我的代码出现异常 protected void onCreate Bundle savedInstanceState super onCreate sa
在Java中，有没有办法指定一个参数实现两个接口

我很想做这样的代码使用 jGraphT interface DirectedGraph
IIS Express 不保留会话数据

我有一个在 IIS Express 服务器下的 Visual Studio 2013 中运行的应用程序问题是会话数据没有保留在页面之间并且我发现之前的页面不为空的空对象如果我编译该应用程序并将其部署在带有 IIS 的 Web 服务器上
Meteor js 和多人游戏

我开始学习 Meteor 我意识到它可能是简单多人游戏的良好解决方案因为它的反应性客户端 minimongo 数据库客户端之间的实时交换是否足够快以交换玩家坐标或者这是一个糟糕的解决方案我应该在没有中间数据库的情况下完成它只需直
MySQL 存储函数的正确 if 子句语法是什么？

我是 MySQL 的新手所以如果其中一些内容相对初级我深表歉意我正在尝试编写一个存储函数来将数字四舍五入到一定数量的有效数字我有一个理论上应该可以工作的函数我咨询了另一个有用的 StackOverflow 来确定逻辑 SQL 中四
什么情况下使用八进制？

我经常看到二进制和十六进制使用但从未见过八进制然而八进制在某些语言中使用时有其自己的约定即前导 0 表示八进制基数什么时候使用八进制当人们使用八进制或八进制更容易推理时有哪些典型情况或者这只是一个品味问题当一个字中的位数
多对多关系中的删除不对称？

我有两个模型产品和类别以及一个用于多对多关系的连接表类别假设我有两个对象产品和类别它们是上述对象的实例 products Product new category Category new product categories
校验和与“git svn clone”不匹配后如何恢复？

作为我们迁移计划的一部分我正在将 SVN 存储库克隆到 git 我一路上遇到了各种障碍迫使我继续克隆git svn fetch命令最近的失败我不知道如何解决 git svn fetch Checksum mismatch dc tru
UIScrollView不滚动

我有一个 UIScrollView 根本不滚动如果我启用弹跳我可以滚动到足够远的距离以查看视图之外的内容但当我释放时它会立即回到原点我已打开寻呼但如果将其关闭则会出现相同的行为我已关闭自动布局在 IB 中 scrollVie
在 JavaScript 中检查字符串是否包含数组的任何元素

如何检查字符串是否包含数组的任何元素如果元素有一些字符串我想过滤一些数组请看下面的代码 var arr banana monkey banana apple kiwi orange function checker value var
Angular / Electron 未启动

我使用 Angular CLI 创建了 Angular 10 项目接下来我安装了 Electron 并完成了以下操作将 src index html 基础更改为本地安装的 Electron 但是当运行我的代码时它显示有一些错误我该
Angular 动态 formControlName 使用 fromGroup 生成

我创建了一个由 JSON 数组组成的表单根据该表单我生成 Validation formControlName 并通过 formGroup 生成输出 this ELEMENT DATA UPDATE first name abc las
警告：发生 HTML 1300 导航？

我已加载我的网站微软边缘版本 25 10586 0 0 和智能屏幕告诉我该网站可能是假的此警告是该网站上的新警告控制台日志显示 HTML1300 Navigation occured example com example com 是我
如何调试在 Windows CE 6 的 .NET CF 3.5 WinForms 应用程序中调用 Application.Exit() 后发生的致命错误？

我正在将 NET CF 1 0 WinForms 应用程序适用于旧版本的 Windows CE 移植到 NET CF 3 5 适用于 Windows CE 6 问题是在调用 Application Exit 几秒钟后我会看到一个致命
如何在打字稿中使用 sinon 来存根 Express 中间件？

我正在尝试使用 typescript mocha sinon 和 chai http 为我的 Express 路由器编写集成测试该路由器使用我编写的自定义中间件用于检查标头中的 JWT 理想情况下我想存根我的authMiddlewar
Google Mirror API 抛出 BadStatusLine 异常 (Python)

使用 Mirror API 时我从多个 API 调用中随机获得 BadStatusLine 异常包括timeline insert and timeline list 通过在Python中寻找类似的问题我怀疑这是来自服务器的某种格式错
mysqli_fetch_assoc（在 PDO fetch_assoc 中）将数字存储为字符串

像往常一样我尽了职责到处寻找太阳但一无所获 mysqli fetch assoc 显然将我的数字存储为字符串通常情况下我不太关心但我的网站几乎 100 ajax 并且它移动大量数据因此所有这些 json 开始累加如果我只是获
Linq：整数之和

我正进入状态不能将 null 值分配给 System Int32 类型的成员该类型是不可为 null 的值类型当执行我的空语句的 Sum 时 ResultView 工作正常但是 var r from v in DataContex
在 Pandas DataFrame 子集（副本）上设置值很慢

import timeit import pandas as pd import numpy as np df pd DataFrame np random rand 10 10 dft df True False 5 df dft dft

在 Pandas DataFrame 子集（副本）上设置值很慢

在 Pandas DataFrame 子集（副本）上设置值很慢 的相关文章

随机推荐

热门标签

在 Pandas DataFrame 子集（副本）上设置值很慢的相关文章