pandas 数据帧上的索引查找。为什么这么慢？如何加快速度？ [复制]

2024-03-26

假设我有一个 pandas 系列，我想将其用作多重映射（每个索引键有多个值）：

# intval -> data1
a = pd.Series(data=-np.arange(100000),
              index=np.random.randint(0, 50000, 100000))

我想（尽快）选择来自的所有值a where a的索引与另一个索引匹配b。（就像内部联接。或者合并但用于系列）。

a其索引中可能有重复项。
b可能没有重复项，也不一定是a的索引。为了给熊猫最好的机会，我们假设b也可以作为排序索引对象提供：

     b = pd.Index(np.unique(np.random.randint(30000, 100000, 100000))).sortvalues()

所以，我们会有这样的东西：

                      target  
   a        b         result
3  0        3      3  0
3  1        7      8  3 
4  2        8      ...     
8  3      ...
9  4
...

我也只对获取结果的值感兴趣（索引[3,8,...]不需要）。

If a没有重复项，我们只需这样做：

a.reindex(b)  # Cannot reindex a duplicate axis

Because &维护的重复项a，我们不能这样做：

d = a[a.index & b.index]
d = a.loc[a.index & b.index]  # same
d = a.get(a.index & b.index)  # same
print d.shape

所以我认为我们需要做一些事情：

common = (a.index & b.index).unique()
a.loc[common]

...这很麻烦，而且速度也慢得惊人。它不是构建要选择的项目列表，速度很慢：

%timeit (a.index & b).unique()
# 100 loops, best of 3: 3.39 ms per loop
%timeit (a.index & b).unique().sort_values()
# 100 loops, best of 3: 4.19 ms per loop

...所以看起来它确实检索很慢的值：

common = ((a.index & b).unique()).sort_values()

%timeit a.loc[common]
#10 loops, best of 3: 43.3 ms per loop

%timeit a.get(common)
#10 loops, best of 3: 42.1 ms per loop

...每秒大约 20 次操作。不完全是活泼的！为什么这么慢？

当然必须有一种快速的方法来从 pandas 数据帧中查找一组值？我不想取出索引对象——实际上我所要求的只是对排序索引进行合并，或（较慢的）散列 int 查找。不管怎样，这应该是一个极其快速操作——在我的 3Ghz 机器上不是每秒 20 次操作。

Also:

分析a.loc[common] give:

ncalls  tottime  percall  cumtime   percall filename:lineno(function)
# All the time spent here.
40      1.01     0.02525  1.018     0.02546 ~:0(<method 'get_indexer_non_unique' indexing.py:1443(_has_valid_type)
...
# seems to be called a lot.
1500    0.000582 3.88e-07 0.000832  5.547e-07 ~:0(<isinstance>)

附言。我之前发布过类似的问题，关于为什么 Series.map 这么慢为什么 pandas.series.map 如此慢？ https://stackoverflow.com/questions/50633939/why-is-pandas-series-map-so-shockingly-slow。原因是引擎盖下的懒惰索引。这似乎并没有发生在这里。

Update:

对于类似大小的 a 和 common，其中 a 是唯一的：

% timeit a.loc[common]
1000 loops, best of 3: 760 µs per loop

...正如@jpp 指出的那样。多索引可能是罪魁祸首。

重复索引肯定会减慢数据帧索引操作的速度。您可以修改您的输入以向自己证明这一点：

a = pd.Series(data=-np.arange(100000), index=np.random.randint(0, 50000, 100000))
%timeit a.loc[common]  # 34.1 ms

a = pd.Series(data=-np.arange(100000), index=np.arange(100000))
%timeit a.loc[common]  # 6.86 ms

正如中提到的这个相关问题 https://stackoverflow.com/a/16629125/9209546:

当索引唯一时，pandas 使用哈希表将键映射到值 O(1)。当索引不唯一且已排序时，pandas 使用二分搜索 O(logN)，当索引是随机排序时，pandas 需要检查中的所有键索引 O(N)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas 数据帧上的索引查找。为什么这么慢？如何加快速度？ [复制] 的相关文章

确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
如何使用 python、openCV 计算图像中的行数

我想数纸张所以我正在考虑使用线条检测我尝试过一些方法例如Canny HoughLines and FLD 但我只得到处理过的照片我不知道如何计算有一些小线段就是我们想要的线我用过len lines or len contours
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
如何将脚本作为 pytest 测试运行

假设我有一个用简单脚本表示的测试assert 陈述请参阅背景了解原因例如 import foo assert foo 3 4 我如何以一种好的方式将该脚本包含在我的 pytest 测试套件中我尝试了两种有效但不太好的方法一种方法是将
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
操作错误：尝试在 ubuntu 服务器中写入只读数据库

我正在使用 FlaskApp 运行mod wsgi and apache2在 Ubuntu 服务器上我尝试运行烧瓶应用程序localhost成功然后部署到ubuntu服务器上但是当我尝试更新数据库时出现错误 Failed to up
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin

随机推荐

spring jpa嵌套投影生成不正确的查询

让我们考虑这些实体 Entity public class Room Id private Integer id private String number private String floor ManyToOne private Ro
Web API 中的符号与数字错误代码

我目前正在开发一个新项目该项目应该提供一个基于网络的 API 当然有很多情况当请求的操作失败时 API 应该报告失败的原因以前我使用传统方式当响应包含数字错误代码和更人性化的错误消息时但维护错误代码列表以及我的代码和内部异常之间
在Eclipse中调试时，是否可以在调试时跳转到一行并执行？

在 Visual Studio 中在调试会话期间可以跳转到光标选择的行并执行该行跳转到该行后您可以从跳转到的行继续调试 Java Eclipse 世界中存在此功能吗例如 foo1 foo2 foo3 返回真在 Visual Stu
如何在 Android 上处理 Facebook ShareDialog.canShow() == false

Facebook在安卓上分享 https developers facebook com docs sharing android文档告诉我们使用以下代码片段显示 ShareDialog if ShareDialog canShow Sha
创建一个基本的 .bashrc 文件 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我没有 bashrc文件我想创建一个但是如何创建基本的是什么 bashrc文件包含我在Linux 薄荷 12 我想要一个 bashrc文件因
C# - 解析 XSD 架构 - 将所有元素获取到组合框

我有 XSD 架构文件我需要使用架构文件中的元素填充组合框
Docker-compose 与 Loopback 和 Mongodb 无法连接 mongodb

我最近一直在学习docker 但无法在我的loopback api和mongodb之间建立连接该应用程序在本地开发环境中运行良好使用 docker compose 我的 mongodb 服务器运行在localhost 27017我的反应
何时将一个Vue组件拆分为多个组件（子组件）

创建 Vue 组件时如何决定何时将一个组件分离为具有多个子组件的父组件而不是只拥有一个具有更多逻辑的组件我在非 SPA 网站的几个地方使用 Vue 在网站的一个页面上我需要显示一个项目列表每个项目旁边都有一些图标来执行一些简单的操
为什么 unique_ptr::release 没有用 [[nodiscard]] 定义？

C 17 added nodiscard https en cppreference com w cpp language attributes nodiscard C 20添加了使用 nodiscard on empty方法例如vect
python 类内部的单元测试方法

对于单元测试来说非常新所以这可能非常简单但我不确定如何在函数中模仿自我论证我想测试的功能 class dataFeed def generateURL self ticker days period return https www
在 C++20 中，如何编写连续迭代器？

C 20 具有显式库支持std contiguous iterator tag 一些STL算法例如std copy 在连续迭代器上可以表现得更好但是我不清楚具体是如何程序员应该可以访问这个新功能为了便于论证我们假设我们有一个完全符
ASP.NET Core 上 CloudTableClient 类的最佳 DI 注册范围是哪个 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在使用 ASP NET Core 2 2 和 Azure 表存储创建 Web 应用程序由于微软为我们提供了CloudTableClient
在React中的ArrayBuffer中显示PNG图像

我正在尝试在进行 JavaScript 调用后获取要在 React 应用程序中显示的图像 PNG 格式代码如下功能设备服务 getFile以 blob 形式返回文件数据是二进制的如何才能让这张图片在 React 中正确显示我尝试过
如何计算DataFrame中字符串的单词数？ [复制]

这个问题在这里已经有答案了假设我们有简单的数据框 df pd DataFrame one apple banana box of oranges pile of fruits outside one banana fruits df co
如何使用nodeJS从JSON对象中删除项目？

我使用的是节点 v8 11 无法从 mongoDB 创建并返回新对象的对象中删除项目创建后的示例响应 name device session id 5b7e78c3cc7bca3867bbd1c9 createdAt 2018 08 23
使用 PBKDF2 密钥派生通过 rust-crypto 正确创建用户可读的盐

我目前正在努力创建一个客户端标准文件 https github com standardnotes doc blob master Client 20Development 20Guide md 其中涉及使用 PBKDF2 来确保安全我在
如何使用 Java (Android) 从雅虎财经现金流量表中提取值？

这是该问题解决方案的后续内容如何从网页内的选项卡的 HTML 页面源中提取数据 https stackoverflow com questions 52939611 how to extract data from html page
C# 中引用类型后面的问号是什么意思？

参数类型后面的问号是引用类型的目的是什么例如一个构造函数OverflowException包含string and Exception 参数 public OverflowException string message Excepti
颠倒 d3.zoom 缩放和平移的顺序

如果您单击本例中的红色按钮 https bl ocks org interwebjill fe782e6f195b17f6fe6798a24c390d90 https bl ocks org interwebjill fe782e6f195
pandas 数据帧上的索引查找。为什么这么慢？如何加快速度？ [复制]

这个问题在这里已经有答案了假设我有一个 pandas 系列我想将其用作多重映射每个索引键有多个值 intval gt data1 a pd Series data np arange 100000 index np random ra

pandas 数据帧上的索引查找。为什么这么慢？如何加快速度？ [复制]

pandas 数据帧上的索引查找。为什么这么慢？如何加快速度？ [复制] 的相关文章

随机推荐

热门标签