为什么“df.lookup”比“df.min”慢？

2024-03-20

我想通过使用来减少一些时间lookup after idxmin，而不是调用min and idxmin。在我看来，第一个应该更有效，因为在第二个中需要搜索两次值（一次搜索最小值，另一次搜索最小值的索引 - 即 2 倍 O(NxM)），而在首先，搜索索引 (O(NxM))，然后使用索引来定位值 (O(N))

请检查这个问题 https://stackoverflow.com/questions/51931137/is-there-a-vectorized-way-to-access-values-of-column-explicitely-indicated-in-an这样你就可以了解我的推理的背景和更多细节。

结果开始出乎意料，所以我继续进行了一些测试：

我使用了 100000 行 x 10 列的数据框（添加更多行结果会变得更糟）：

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0,100,size=(100000, 10)), columns=[f'option_{x}' for x in range(1,11)]).reset_index()
df['min_column'] = df.filter(like='option').idxmin(1)

然后我做了一些计时：

%timeit -n 100 df.filter(like='option').min(1)
# 12.2 ms ± 599 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit -n 100 df.lookup(df.index, df['min_column'])
# 46.9 ms ± 526 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

请注意，即使min_columns被预先计算为lookup，结果比单纯寻找最小值差 4 倍。

其他尺寸对比：

RowsxCols    min        lookup
100000x10    12.2ms     46.9ms
1000000x10   162ms      682ms
10000x1000   173ms      220ms
1000x10000   295ms      7.97ms

从上表中可以看出，正如预期的那样，通过添加行 (1000000x10)，结果并没有得到任何改善，并且在添加更多列 (10000x1000) 时，结果也只是略有改善。这种追赶是有道理的，但在我看来，它应该更大，索引应该比搜索更快（参见更新的 numpy 结果），并且只有在极端情况下（几乎不切实际，例如 1000x10000）我才开始看到优势。

这种行为有什么解释吗？

UPDATE:

我用 numpy 测试了这个，得到了预期的行为：

vals = np.random.randint(0,10,size=(100000, 10))
%timeit -n 100 np.min(vals, axis=1)
2.83 ms ± 235 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

idx_min = np.argmin(vals, axis=1)
%timeit -n 100 vals[np.arange(len(idx_min)), idx_min]
1.63 ms ± 243 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

比较结果（numpy）：

RowsxCols    min        indexing using []
100000x10    2.83ms     1.63ms
1000000x10   24.6ms     15.4ms
100000x100   14.5ms     3.38ms
10000x1000   11.1ms   0.377ms

如果你看一下查找函数的源代码实现，它看起来效率不是很高。源代码可以在这里找到：

http://github.com/pandas-dev/pandas/blob/v0.23.4/pandas/core/frame.py#L3435-L3484 http://github.com/pandas-dev/pandas/blob/v0.23.4/pandas/core/frame.py#L3435-L3484

特别是，在主要的 if-else 条件体中，它确实

if not self._is_mixed_type or n > thresh:
        values = self.values
        ridx = self.index.get_indexer(row_labels)
        cidx = self.columns.get_indexer(col_labels)
        if (ridx == -1).any():
            raise KeyError('One or more row labels was not found')
        if (cidx == -1).any():
            raise KeyError('One or more column labels was not found')
        flat_index = ridx * len(self.columns) + cidx
        result = values.flat[flat_index]

result = np.empty(n, dtype='O')
for i, (r, c) in enumerate(zip(row_labels, col_labels)):
        result[i] = self._get_value(r, c)

我不确定 if 情况的详细实现，但您可能想在大量行和大量列的情况下尝试此操作，并且您可能会从查找函数中获得更好的结果。

您可能应该尝试定义自己的查找表，这样您就可以准确地知道运行时，而不是使用此查找函数

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

为什么“df.lookup”比“df.min”慢？的相关文章

pandas 使用日期时间对象重新索引 DataFrame

是否可以重新索引 pandasDataFrame使用由日期时间对象组成的列我有一个数据框df包含以下列 Int64Index 19610 entries 0 to 19609 Data columns cntr 19610 non nul
使用 InlineKeyboardButton python telegram bot 发送命令

在Python电报机器人中是否有可能InlineKeyboardButton发送类似命令 cancel当它被按下时例如当用户按下取消按钮时他们将自动发送 cancel 命令然后由机器人处理从这里的例子来看 https githu
AttributeError：'function'对象在pandas中没有属性'bar'

我有一个 pandas 数据框它是 pandas 数据框类型如下所示 type df Out 176 pandas core frame DataFrame 但是当我尝试在此数据框上使用任何绘图函数如条形图时会出现如下错误 df
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
更改用作函数全局作用域的字典

我想做一个 purePython 的装饰器其中一部分是能够有选择地禁止访问函数的全局范围有没有一种方法可以以编程方式更改哪个字典事物充当函数的全局外部作用域因此例如在下面我希望能够拦截对f in h并抛出错误但我想允许访问g因为
如果 pandas 数据框中的所有列都有空字符串，则删除行

我有一个数据框如下 Name Age 0 Tom 20 1 nick 21 2 3 krish 19 4 jack 18 5 6 jill 26 7 nick 期望的输出是 Name Age 0 Tom 20 1 nick 21 3 kri
如何在 Python 3 中获取当前语言环境的字母表？

在 Python 2 中您可以执行以下操作来获取当前语言环境的字符集 import string print string letters 然而在 Python 3 中字符串模块的区域设置相关常量例如string letters s
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g
pandas：按多列分组后创建单一大小和总和列

我有一个数据框我在 3 列上进行 groupby 并聚合数字列的总和和大小运行代码后 df pd DataFrame groupby year cntry state agg size sum 我得到如下内容现在我想将尺寸子列与主列
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
如何在单元测试中模拟 subprocess.call

我使用的是 python 3 3 我必须测试一个使用的方法call来自 subprocess py I tried subprocess call MagicMock with patch subprocess call as TU cal
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit

随机推荐

为什么 android:fullBackupOnly 默认值是 false？

In https developer android com guide topics manifest application element https developer android com guide topics manife
如何避免链接多个 AsyncTask 调用？

我必须对 Web 服务进行多次调用但每个步骤都使用上一步中的值因此现在我有一个巨大的 AsyncTasks 链每个 AsyncTask 都在上一步的 AsyncTask 的 onPostExecute 中执行这非常非常难看而且很难
Perl DBIx::Class 可以覆盖从数据库检索列的方式吗？

直到今天我才使用过 DBIx Class 所以我对它完全陌生我不确定这是否可能但基本上我的 SQLite 数据库中有一个表其中有一个时间戳列时间戳列的默认值为 CURRENT TIMESTAMP SQLite 将其存储在 GMT 时
总是收到“消息”：“未经身份验证。” - Laravel 护照

我一整天都找到了很多教程我的设置与所有基本教程完全相同目前我可以访问http localhost oauth token成功地将令牌返回给我之后我使用 ARC Advanced Rest Client 来进行调用我自己的 api
如何在SQL中获取2个表中不匹配的行？

我有两个 SQL Server 表 CHANNELS SUBSCRIBERS 我想从中获取行CHANNELS不存在于SUBSCRIBERS在某种条件下我尝试过INNER和OUTER LEFT JOIN但这对我不起作用他们都给了我相同的答
将一组字符串转换为 byte[] 数组

我正在尝试将一组字符串转换为 byte 数组首先我执行以下操作将字节数组转换为字符串 public String convertByte byte msg String str for int i 0 i lt msg length i
如何在iPhone中获取DNS服务器IP

我尝试通过以下方式获取 etc resolv conf 打开 etc resolv conf 0644 但它返回 1并且errno是2这意味着没有这样的文件我能做些什么您无法访问应用程序沙箱之外的文件
反应本机错误 RCTJSONStringify() 遇到以下错误：JSON 写入中的类型无效 (NSURL)

我正在尝试使用反应本机fbsdk在我的反应本机应用程序中直到昨天为止都运行良好但是今天它给出了一个奇怪的错误RCTJSONStringify 遇到以下错误 JSON 写入 NSURL 中的类型无效 RN v0 42 0 这是我的代码
从 dll 内的函数返回时堆损坏

我有一个具有如下原型的函数 void function std string str 这个函数在另一个加载和使用该 dll 的程序的主函数中被调用 function some string value here 从该函数返回时我收到堆损坏
使用 Nokogiri 解析大型 HTML 文件

我正在尝试解析与 Nokogiri 但不幸的是我无法从页面获取所有项目我的简单测试代码是 require open uri require nokogiri html Nokogiri HTML open http www pro med
bash 中的视频方向检测

我需要检测视频是以纵向还是横向模式录制的然后以脚本方式将其转换为正确的方向 if v orient landscape then ffmpeg i file mp4 vf transpose 1 file ogv else ffmpeg
ABAP中调用方法的不同方式

抱歉这个基本的 ABAP 问题 ABAP中调用方法有哪些不同的方式他们的官方名字是什么我听说过执行方法调用和内部内联方法调用执行使用PERFORM关键字和方法调用CALL METHOD语法我猜但什么是内部或内联方法调
如何使用 std::cin 读取 bool

我是 C 新手我想知道函数 cin 在布尔数据的情况下如何工作比方说 bool a cin gt gt a 我知道如果我给出 0 或 1 我的数据 a 将是 true 或 false 但是如果我给出另一个整数甚至一个字符串会发生什么我
允许所有用户进行临时分发查询

我正在使用 AD Hoc 分布式查询将数据从 MS SQL Server 2008 传输到 MS Access 该过程使用单个 SQL 语句启动 INSERT INTO OpenDataSource Microsoft Jet OLEDB
Arrays.stream(array_name).sum() 比迭代方法慢吗？

我正在编写一个 leetcode 问题 https oj leetcode com problems gas station https oj leetcode com problems gas station 使用Java 8 我的解决方
是否可以将Spring Data JPA中的@Lock和@Modifying @Query与Hibernate结合起来？

我有一个 Lock注解与 Modifying Query一起使用时出现问题和查询本身执行更新语句我的测试设置如下所示 Spring Boot 启动器 1 5 3 RELEASE 休眠 5 2 10 Final Spring Data JP
Git 将存储库镜像到特定分支

我们公司尝试将一个github项目fork到我们自己的git服务器上然后我们可以在上面添加我们自己的功能我们只想签出一个特定的分支并将所有分支和标签保留到该分支然后复制镜像到我们的 git 服务器在您的服务器上创建存储库在其
Pandas：迭代 DataFrame 列表并将每个数据框导出到 Excel 工作表

尝试自学编码以自动化工作中一些繁琐的任务对于任何无意的无知我深表歉意我在 pandas python 3 x 中创建了数据框我想将每个数据框打印到不同的 Excel 工作表中这是我的 2 个数据帧它工作完美但我想缩放它以循环遍
使用新的 YouTube API v3 解析 YouTube 订阅者计数

我想使用新的 API v3 从我的 YouTube 频道获取订阅者数量我在这里为 youtube 创建了一个 Google API 应用程序谷歌 API 控制台 https code google com apis console 我有
为什么“df.lookup”比“df.min”慢？

我想通过使用来减少一些时间lookup after idxmin 而不是调用min and idxmin 在我看来第一个应该更有效因为在第二个中需要搜索两次值一次搜索最小值另一次搜索最小值的索引即 2 倍 O NxM 而在首先搜

为什么“df.lookup”比“df.min”慢？

UPDATE:

为什么“df.lookup”比“df.min”慢？ 的相关文章

随机推荐

热门标签

为什么“df.lookup”比“df.min”慢？的相关文章