寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法

2024-03-25

我的程序需要根据一个巨大的 Pandas Dataframe 中的列值获取一行。响应时间至关重要。我使用最常见的方法来做到这一点，例如：

df.loc[df['id'] == 500000, :]

Per timeit在我的 Mac 上，对 100 万行的数据帧完成上述操作需要 4 毫秒。但我的目标是将时间减少到 0.4 毫秒。我曾经考虑将此数据帧转换为 Set，但 Set 没有排序，并且本身不支持索引或切片。有什么建议么？

让我们设置一下：

import pandas as pd
import numpy as np
df = pd.DataFrame({"id": np.random.randint(100,size=(1000000,))})

然后让我们对一些选项进行基准测试。您当前的布尔值 +.loc:

>>> timeit.timeit("df.loc[df['id'] == 50, :]", setup = "from __main__ import df", number=1000)
2.566220869999597

查询引擎：

>>> timeit.timeit("df.query('id == 50')", setup = "from __main__ import df", number=1000)
14.591400260000228

使用索引作为单独的查找：

>>> idx = pd.Index(df['id'])
>>> timeit.timeit("df.loc[idx == 50, :]", setup = "from __main__ import df, idx", number=1000)
2.2155187300013495

使用数据帧索引进行查找：

>>> df.index = df["id"]
>>> timeit.timeit("df.loc[50, :]", setup = "from __main__ import df", number=1000)
2.625610274999417

然后.isin()认为评论中有人：

>>> timeit.timeit("df.loc[df['id'].isin([50]), :]", setup = "from __main__ import df", number=1000)
9.542700138999862

看起来除了查询引擎对于简单的等式来说速度很慢（如预期的那样）之外，您不会得到比您所获得的查找时间更好的结果。

df_unique = pd.DataFrame({'id': range(1000000)})

让我们看看唯一 ID 有什么用处：

>>> timeit.timeit("df_unique.loc[df_unique['id'] == 50, :]", setup = "from __main__ import df_unique", number=1000)
1.9672015519990964

然后是一个字典：

>>> df_unique.index = df_unique['id']
>>> df_dict = df_unique.to_dict(orient='index')
>>> timeit.timeit("df_dict[50]", setup = "from __main__ import df_dict", number=1000)
6.247700002859347e-05

嗯，看起来这是一个明显的赢家。

>>> timeit.timeit("pd.Series(df_dict[50])", setup = "from __main__ import df_dict, pd", number=1000)
0.2747819870000967

即使您必须将其重新转换为系列，这也比以前快了一个数量级。（如果需要，您还可以非常轻松地将一系列映射回字典中，并保持字典查找的速度而无需任何开销）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法的相关文章

“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
带有 UnboundLocalError 的本地和全局引用

我不太明白为什么代码 def f print s s foo f 运行得很好但是 def f print s s bar s foo f 给我 UnboundLocalError 我知道我可以通过声明来解决这个问题s作为函数内的全局变量或简
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
使用 MinGW 链接到 Python

我不想创建一个嵌入Python解释器的跨平台程序并用MinGW编译它但是 Python 二进制发行版没有提供 MinGW 链接的库仅python32 lib对于 Visual C 并且 Python 源包不提供使用 MinGW 编译的
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
Python中矩阵元素的双重求和

基于下面的简化示例我想在我的代码中 from sympy import import numpy as np init printing x y symbols x y mat Matrix x 1 1 y X 1 2 3 Y 10 20
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil

随机推荐

EF Code First 延迟加载不起作用

我首先使用 EF6 的代码但似乎无法让延迟加载工作预加载工作正常我有以下课程 public class Merchant User public virtual ICollection
D3.js - 具有多个环和动画过渡的甜甜圈图

如何为下面的多环D3图表添加过渡动画效果如图所示D3 js 具有多个环的圆环图 https stackoverflow com questions 17507728 d3 js donut charts with multiple rin
BlackBerry Simulator 中的图形加速错误

当我在模拟器上运行任何程序时它会打开并显示错误图形加速错误 BlackBerry 9900 Simulator 检测到您当前的图形加速存在问题设置具有最新视频的 OpenGL 1 x 兼容显卡图形加速需要驱动程序请尝试较低的通
在 Android 中将原始文件移动到 SD 卡

我有一个方法可以copy an Audio file from raw folder to SD card 需要两个输入 ressound ogg 音频原始文件 ID fName SD卡中原始文件的文件名 Updated public bo
iOS 16 中 List 中的嵌套 ScrollView + 可刷新的奇怪行为

在我的 SwiftUI 应用程序中我有一个带有嵌套 ScrollView 的列表因为我已将 iPhone 更新到 iOS 16 所以主列表上的刷新有一个奇怪的行为似乎每个ScrollView都有自己的刷新问题是我在主列表上应用了 r
jQuery 从 select 获取值然后更改 div 的 css

我一直在尝试使用这个例子但我一生都无法让它发挥作用从选择中更改 Div 的背景 https stackoverflow com questions 5764413 change background of div from select
属性名称不同时如何指定映射规则

我是 Automapper 框架的新手我有一个域类和一个 DTO 类如下所示 public class Employee public long Id get set public string Name get set public
有没有办法从 vim 一次打开多个文件？

当从命令行启动 vim 时我可以这样做vim txt一次打开目录中的所有文本文件出于某种原因在 vim 内部尝试相同的操作 e txt 给出错误 E77 Too many file names vim 拒绝一次打开多个有什么原因吗有
在主查询中的一列中返回多个值

我试图从表中查找相对信息并将这些结果以及其他不相关的结果作为较大查询的一部分返回到一行中我已经尝试使用这个示例并针对我的数据进行了修改如何在一列中返回多个值 T SQL https stackoverflow com quest
检查 Laravel 中的请求数组是否为空

我有一个动态生成的表单它为我提供了一组输入然而数组可能为空那么 foreach 将失败 public function myfunction Request request if isset request do something
如何使嵌入式 Elasticsearch 可通过 localhost:9200 访问

我正在玩spring boot sample data elasticsearch https github com spring projects spring boot tree master spring boot samples s
在 VS 2012 中部署 Visual Studio 插件

我已经成功创建了 Visual Studio 插件但是我很困惑如何在另一台计算机上部署这个插件我已经浏览了 stackoverflow 的答案但是我对此事没有明确的想法您只需将 YourAddIn dll 和 YourAddIn A
将函数指针设置为静态地址

我正在将 DLL 注入另一个进程并希望根据其地址 0x54315 调用该二进制文件中的函数我怎样才能真正声明一个函数然后将其设置到这个地址 define FUNC 0x54315 void myFuncPtr int main myF
UI 自动化 - 为另一个应用程序的文本框设置文本

我有两种形式当单击其中一个按钮时我想打开另一个按钮并在其中填充一个文本框我尝试使用下面的代码但它给出了一个错误指出不支持的模式这是我的代码 private void button1 Click object sender Ev
找出长度为 N 的两个字符的所有可能组合

我有两个角色例如 a a b b 我需要找到这两个字符的所有可能组合从而形成长度为 N 的字符串例如如果N 3 combinations aab aba baa abb bab bba aaa bbb 某些模块中有此功能吗 iter
覆盖 Django 模型 __init__ 方法

我的 Django 项目的 Ingredient 模型有一个IntegerField它声明该原料库存是否按重量单位或窝数进行管理虽然数据库有它的integervalue 我必须显示它的名称我认为最好覆盖每个成分并设置其值而不是覆盖
清理我的 git 分支的开发功能

我参加 git 聚会有点晚了我有一个简单的问题我的主分支上目前正在开发三个功能实验这些功能可以称为postits auth and uploads 当我做git status在我的主分支上我得到了已更改但未更新中约 10 个条目
iOS 14/Xcode 12.0.1 更新后 UIPickerView 渲染不正确

有人注意到应用程序 UIPickerViews 中的文本渲染不正确第一个字符被截断吗我在多个设备上的应用程序的所有 UIPickerViews 中看到了这一点在大多数情况下您可以看到第一个字符的几个像素我尝试过从手机中删除派生数据
许多基于backbone.js 的框架在现实世界中的优点和缺点是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案希望有人可以分享他们对一些最新出现的backbone js 变体的经验我在几个项目中对主干下划线需求有一些很好的经验我希望下一步朝着复杂
寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法

我的程序需要根据一个巨大的 Pandas Dataframe 中的列值获取一行响应时间至关重要我使用最常见的方法来做到这一点例如 df loc df id 500000 Per timeit在我的 Mac 上对 100 万行的数据帧

寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法

寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法 的相关文章

随机推荐

热门标签

寻找在巨大的 Pandas Dataframe 中对行进行切片的最快方法的相关文章