寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法

2024-03-25

我的程序需要根据一个巨大的 Pandas Dataframe 中的列值获取一行。响应时间至关重要。我使用最常见的方法来做到这一点,例如:

df.loc[df['id'] == 500000, :]

Per timeit在我的 Mac 上,对 100 万行的数据帧完成上述操作需要 4 毫秒。但我的目标是将时间减少到 0.4 毫秒。我曾经考虑将此数据帧转换为 Set,但 Set 没有排序,并且本身不支持索引或切片。有什么建议么?


让我们设置一下:

import pandas as pd
import numpy as np
df = pd.DataFrame({"id": np.random.randint(100,size=(1000000,))})

然后让我们对一些选项进行基准测试。您当前的布尔值 +.loc:

>>> timeit.timeit("df.loc[df['id'] == 50, :]", setup = "from __main__ import df", number=1000)
2.566220869999597

查询引擎:

>>> timeit.timeit("df.query('id == 50')", setup = "from __main__ import df", number=1000)
14.591400260000228

使用索引作为单独的查找:

>>> idx = pd.Index(df['id'])
>>> timeit.timeit("df.loc[idx == 50, :]", setup = "from __main__ import df, idx", number=1000)
2.2155187300013495

使用数据帧索引进行查找:

>>> df.index = df["id"]
>>> timeit.timeit("df.loc[50, :]", setup = "from __main__ import df", number=1000)
2.625610274999417

然后.isin()认为评论中有人:

>>> timeit.timeit("df.loc[df['id'].isin([50]), :]", setup = "from __main__ import df", number=1000)
9.542700138999862

看起来除了查询引擎对于简单的等式来说速度很慢(如预期的那样)之外,您不会得到比您所获得的查找时间更好的结果。

df_unique = pd.DataFrame({'id': range(1000000)})

让我们看看唯一 ID 有什么用处:

>>> timeit.timeit("df_unique.loc[df_unique['id'] == 50, :]", setup = "from __main__ import df_unique", number=1000)
1.9672015519990964

然后是一个字典:

>>> df_unique.index = df_unique['id']
>>> df_dict = df_unique.to_dict(orient='index')
>>> timeit.timeit("df_dict[50]", setup = "from __main__ import df_dict", number=1000)
6.247700002859347e-05

嗯,看起来这是一个明显的赢家。

>>> timeit.timeit("pd.Series(df_dict[50])", setup = "from __main__ import df_dict, pd", number=1000)
0.2747819870000967

即使您必须将其重新转换为系列,这也比以前快了一个数量级。 (如果需要,您还可以非常轻松地将一系列映射回字典中,并保持字典查找的速度而无需任何开销)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法 的相关文章

随机推荐

  • EF Code First 延迟加载不起作用

    我首先使用 EF6 的代码 但似乎无法让延迟加载工作 预加载工作正常 我有以下课程 public class Merchant User public virtual ICollection
  • D3.js - 具有多个环和动画过渡的甜甜圈图

    如何为下面的多环D3图表添加过渡动画效果 如图所示D3 js 具有多个环的圆环图 https stackoverflow com questions 17507728 d3 js donut charts with multiple rin
  • BlackBerry Simulator 中的图形加速错误

    当我在模拟器上运行任何程序时 它会打开并显示错误 图形加速错误 BlackBerry 9900 Simulator 检测到您当前的图形加速存在问题 设置 具有最新视频的 OpenGL 1 x 兼容显卡 图形加速需要驱动程序 请尝试较低的 通
  • 在 Android 中将原始文件移动到 SD 卡

    我有一个方法可以copy an Audio file from raw folder to SD card 需要两个输入 ressound ogg 音频原始文件 ID fName SD卡中原始文件的文件名 Updated public bo
  • iOS 16 中 List 中的嵌套 ScrollView + 可刷新的奇怪行为

    在我的 SwiftUI 应用程序中 我有一个带有嵌套 ScrollView 的列表 因为我已将 iPhone 更新到 iOS 16 所以主列表上的刷新有一个奇怪的行为 似乎每个ScrollView都有自己的刷新 问题是我在主列表上应用了 r
  • jQuery 从 select 获取值然后更改 div 的 css

    我一直在尝试使用这个例子 但我一生都无法让它发挥作用 从选择中更改 Div 的背景 https stackoverflow com questions 5764413 change background of div from select
  • 属性名称不同时如何指定映射规则

    我是 Automapper 框架的新手 我有一个域类和一个 DTO 类 如下所示 public class Employee public long Id get set public string Name get set public
  • 有没有办法从 vim 一次打开多个文件?

    当从命令行启动 vim 时 我可以这样做vim txt一次打开目录中的所有文本文件 出于某种原因 在 vim 内部尝试相同的操作 e txt 给出错误 E77 Too many file names vim 拒绝一次打开多个有什么原因吗 有
  • 在主查询中的一列中返回多个值

    我试图从表中查找相对信息 并将这些结果 以及其他不相关的结果 作为较大查询的一部分返回到一行中 我已经尝试使用这个示例 并针对我的数据进行了修改 如何在一列中返回多个值 T SQL https stackoverflow com quest
  • 检查 Laravel 中的请求数组是否为空

    我有一个动态生成的表单 它为我提供了一组输入 然而数组可能为空 那么 foreach 将失败 public function myfunction Request request if isset request do something
  • 如何使嵌入式 Elasticsearch 可通过 localhost:9200 访问

    我正在玩spring boot sample data elasticsearch https github com spring projects spring boot tree master spring boot samples s
  • 在 VS 2012 中部署 Visual Studio 插件

    我已经成功创建了 Visual Studio 插件 但是我很困惑如何在另一台计算机上部署这个插件 我已经浏览了 stackoverflow 的答案 但是我对此事没有明确的想法 您只需将 YourAddIn dll 和 YourAddIn A
  • 将函数指针设置为静态地址

    我正在将 DLL 注入另一个进程 并希望根据其地址 0x54315 调用该二进制文件中的函数 我怎样才能真正声明一个函数 然后将其设置到这个地址 define FUNC 0x54315 void myFuncPtr int main myF
  • UI 自动化 - 为另一个应用程序的文本框设置文本

    我有两种形式 当单击其中一个按钮时 我想打开另一个按钮并在其中填充一个文本框 我尝试使用下面的代码 但它给出了一个错误 指出 不支持的模式 这是我的代码 private void button1 Click object sender Ev
  • 找出长度为 N 的两个字符的所有可能组合

    我有两个角色 例如 a a b b 我需要找到这两个字符的所有可能组合 从而形成长度为 N 的字符串 例如 如果N 3 combinations aab aba baa abb bab bba aaa bbb 某些模块中有此功能吗 iter
  • 覆盖 Django 模型 __init__ 方法

    我的 Django 项目的 Ingredient 模型有一个IntegerField它声明该原料库存是否按重量 单位或窝数进行管理 虽然数据库有它的integervalue 我必须显示它的名称 我认为最好覆盖每个成分并设置其值 而不是覆盖
  • 清理我的 git 分支的开发功能

    我参加 git 聚会有点晚了 我有一个简单的问题 我的主分支上目前正在开发三个功能实验 这些功能可以称为postits auth and uploads 当我做git status在我的主分支上 我得到了 已更改但未更新 中约 10 个条目
  • iOS 14/Xcode 12.0.1 更新后 UIPickerView 渲染不正确

    有人注意到应用程序 UIPickerViews 中的文本渲染不正确 第一个字符被截断吗 我在多个设备上的应用程序的所有 UIPickerViews 中看到了这一点 在大多数情况下 您可以看到第一个字符的几个像素 我尝试过从手机中删除派生数据
  • 许多基于backbone.js 的框架在现实世界中的优点和缺点是什么? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 希望有人可以分享他们对一些最新出现的backbone js 变体的经验 我在几个项目中对主干 下划线 需求有一些很好的经验 我希望下一步朝着复杂
  • 寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法

    我的程序需要根据一个巨大的 Pandas Dataframe 中的列值获取一行 响应时间至关重要 我使用最常见的方法来做到这一点 例如 df loc df id 500000 Per timeit在我的 Mac 上 对 100 万行的数据帧