在 pandas 中使用 .loc 会减慢计算速度

2024-03-15

我有以下数据框,我想将底部 1% 的值分配给新列。当我使用“.loc”通知进行此计算时,使用 .loc 分配大约需要 10 秒,而替代解决方案只需 2 秒。

df_temp = pd.DataFrame(np.random.randn(100000000,1),columns=list('A'))
%time df_temp["q"] = df_temp["A"].quantile(0.01)
%time df_temp.loc[:, "q1_loc"] = df_temp["A"].quantile(0.01)

为什么 .loc 解决方案速度较慢?我知道使用 .loc 解决方案更安全,但如果我想将数据分配给列中的所有索引,直接分配会出现什么问题?


.loc正在沿着整个轴搜索 df 中的整个索引和列(在本例中,只有 1 列),除了计算出 的分位数之外,这非常耗时,而且可能是多余的df_temp['A'](就计算时间而言,可以忽略不计)。另一方面,您的直接赋值方法只是解析df_temp['A'].quantile(0.01),并分配df_temp['q']。它不需要详尽地搜索 df 的索引/列。

See 这个答案 https://stackoverflow.com/a/27597343/6671176对于类似的描述.loc method.

就安全性而言,您没有使用链式索引,因此您可能是安全的(您不会尝试在copy您的数据,它是直接在数据本身上设置的)。最好了解不使用的潜在问题.loc (see 这个帖子 https://www.dataquest.io/blog/settingwithcopywarning/一个很好的概述SettingWithCopy警告),但我认为就目前而言你还可以。

如果你想成为more明确你的列创建,你可以做一些类似的事情df = df.assign(q=df_temp["A"].quantile(0.01))。它不会真正改变性能(我不认为),也不会改变结果,但它允许您看到您明确地将新列分配给现有数据帧(因此不会在所述数据帧的副本上设置任何内容) )。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 pandas 中使用 .loc 会减慢计算速度 的相关文章

随机推荐

  • 从 ANDROID 2.2 发送 UDP 包(HTC 希望)

    我有一个局域网 我想从我的 android htcdesire 发送一条 udp 消息到我的电脑 它们之间有一个 WLAN 路由器 问题是 UPD 消息永远不会到达 PC Android上的代码 package org example an
  • JSON 架构允许日期或空字符串

    我需要定义一个 JSON 模式 其中输入可以是日期或空字符串 我当前的 JSON 架构是 type object required FirstName DateOfBirth properties FirstName type string
  • R - 自动调整 Excel 列宽

    如何使用自动调整列宽openxlsx 我的其中一列有一个日期变量 例如21 08 2017 并且如果使用复制ctrl c从 Excel 中 并正常粘贴到其他地方 它显示为 如果增加列宽以显示 Excel 中的内容 则可以正常粘贴 我想将重复
  • 在 d3 中设置 id 问题

    这就是我正在做的 selection canvas selectAll circle data mydata selection enter append circle selection attr id function d i var
  • Scala - Slick - 获取包装选项的 TypedType[T]

    通常创建这样的自定义 ID case class CustomID value Int extends MappedTo Int 并用 Option CustomID 等类型表示可为 null 的自定义 ID 但是 我希望能够将 Optio
  • 为什么 >= 有效但 => 无效?

    当检查一个整数是否等于或大于当前数字时 所以我输入 if 5 gt 6 Bla 但它显示这是一个错误 为什么 这不是完全一样吗 if 5 gt 6 Bla 它不起作用的原因是因为 gt 不等于 gt gt 用于拉姆达表达式 http msd
  • Nil 和 List 作为 Scala 中的 case 表达式

    此代码编译 def wtf arg Any arg match case Nil gt Nil was passed to arg case List gt List was passed to arg case gt otherwise
  • Java - split(regex, limit) 方法实际上如何工作? [复制]

    这个问题在这里已经有答案了 我试图了解 split 方法的工作原理 但对此有些困惑 在 oracle 文档页面给出的这个示例中 String str boo and foo String str1 str split o 2 Output
  • 如何在 AWS Lambda 函数中获取 AWS API Gateway 调用 URL?

    我正在将代理集成与 Java lambda 函数结合使用 lambda 处理程序的输入是一个表示传入请求的 JSON 对象 它有正文 标头 查询参数等 但它不包括 API 网关解析的正文的源 URL 查询参数等 有没有办法获取它 问题是 A
  • 姜戈树胡子 AL、NS、MP 之间有什么区别

    我正在尝试制作一个模型来对某些对象进行分类 我已经尝试使用 django mptt 轻松检索相关类别 现在我正在搜索不同的解决方案以找到最好的解决方案 我无法找出物化路径 邻接列表和嵌套集之间的主要区别 维基百科没有给我一个简短的答案 我所
  • 在 VB.Net 中获取 COM 对象的特定实例

    我正在 Net 中编写一个 Windows 窗体应用程序 以列出第三方 CAD CAM 软件 在本例中为 CATIA 的所有正在运行的实例 并让用户选择其中一个来执行几个自动化任务 为了执行自动化任务 我需要获取 COM 对象的特定实例 与
  • 我应该如何使用 Laravel 提供图像?

    我将用户个人资料图片存储在 laravel 存储文件夹而不是公共文件夹中 因为我想保持公共文件夹干净 避免用户混乱 为了从该文件夹提供图像 我创建了一个简单的控制器操作 如下所示 public function profilePicture
  • R:无法分配大于 x MB 的内存

    我在 R 中有一个 main 函数 它调用其他文件来运行我的程序 我通过bat文件 exe 调用主文件 当我逐行运行它时 它运行时不会出现内存错误 但是当我调用 bat 文件来运行它时 它会停止并给出以下错误 无法分配大于 51 MB 的内
  • 如何将 lex 文件中的 yytext 传递给 yacc?

    请我面临一个简单的问题 这就是问题 在我的 lex 文件中 我有类似的内容 char ptr String name BEGIN sName
  • Pandas Dataframe - 向下移动行并维护数据

    我的原始数据框 df column1 column2 0 1 a 1 2 b 2 3 c 3 4 d 4 5 e 5 6 f 我想将值向下移动 6 如下所示 column1 column2 0 1 2 3 4 5 6 1 a 7 2 b 8
  • 我可以更改 python 首先查找模块的顺序吗?

    假设我有一个脚本my tools py我作为模块导入 但my tools py保存两次 在C Python27 Lib并在运行执行导入的脚本的同一目录中 我可以改变python查找的顺序吗my tools py第一的 也就是说 首先检查它是
  • 如何将字符串与变量连接起来?

    所以我试图用字符串和传递的变量 这是一个数字 创建一个字符串 我怎么做 我有这样的事情 function AddBorder id document getElementById horseThumb id className hand p
  • Shiny DT:排序时冻结行名?

    我正在设计一个 Shiny 应用程序 根据各种指标对人们进行排名 使用数据排序功能 我希望用户能够单击任何列并按其排序 使用行名作为排名似乎很自然 问题是这些数字与表的其余部分一起排序 有什么方法可以冻结此列 以便在表的其余部分排序时排名数
  • 我无法在 main 方法中调用 repaint() 方法

    每次我尝试调用 repaint 方法时 它都会说静态方法不能引用非静态方法 顺便说一句 它与 PaintComponent 方法位于同一类中 我尝试首先从类中创建一个对象 然后使用对象名称引用它 但它也不起作用 请帮忙 public cla
  • 在 pandas 中使用 .loc 会减慢计算速度

    我有以下数据框 我想将底部 1 的值分配给新列 当我使用 loc 通知进行此计算时 使用 loc 分配大约需要 10 秒 而替代解决方案只需 2 秒 df temp pd DataFrame np random randn 10000000