速度较慢的 numpy.argmax/argmin 的更快替代方案

2024-02-05

我正在使用很多argmin and argmax在Python中。

不幸的是，该功能非常慢。

我已经做了一些搜索，我能找到的最好的就在这里：

http://lemire.me/blog/archives/2008/12/17/fast-argmax-in-python/ http://lemire.me/blog/archives/2008/12/17/fast-argmax-in-python/

def fastest_argmax(array):
    array = list( array )
    return array.index(max(array))

不幸的是，这个解决方案的速度仍然只有一半np.max，我想我应该能够尽快找到东西np.max.

x = np.random.randn(10)
%timeit np.argmax( x )
10000 loops, best of 3: 21.8 us per loop

%timeit fastest_argmax( x )    
10000 loops, best of 3: 20.8 us per loop

请注意，我将其应用于 Pandas DataFrame Groupby

E.G.

%timeit grp2[ 'ODDS' ].agg( [ fastest_argmax ] )
100 loops, best of 3: 8.8 ms per loop

%timeit grp2[ 'ODDS' ].agg( [ np.argmax ] )
100 loops, best of 3: 11.6 ms per loop

Where grp2[ 'ODDS' ].head()看起来像这样：

EVENT_ID   SELECTION_ID        
104601100  4367029       682508    3.05
                         682509    3.15
                         682510    3.25
                         682511    3.35
           5319660       682512    2.04
                         682513    2.08
                         682514    2.10
                         682515    2.12
                         682516    2.14
           5510310       682520    4.10
                         682521    4.40
                         682522    4.50
                         682523    4.80
                         682524    5.30
           5559264       682526    5.00
                         682527    5.30
                         682528    5.40
                         682529    5.50
                         682530    5.60
           5585869       682533    1.96
                         682534    1.97
                         682535    1.98
                         682536    2.02
                         682537    2.04
           6064546       682540    3.00
                         682541    2.74
                         682542    2.76
                         682543    2.96
                         682544    3.05
104601200  4916112       682548    2.64
                         682549    2.68
                         682550    2.70
                         682551    2.72
                         682552    2.74
           5315859       682557    2.90
                         682558    2.92
                         682559    3.05
                         682560    3.10
                         682561    3.15
           5356995       682564    2.42
                         682565    2.44
                         682566    2.48
                         682567    2.50
                         682568    2.52
           5465225       682573    1.85
                         682574    1.89
                         682575    1.91
                         682576    1.93
                         682577    1.94
           5773661       682588    5.00
                         682589    4.40
                         682590    4.90
                         682591    5.10
           6013187       682592    5.00
                         682593    4.20
                         682594    4.30
                         682595    4.40
                         682596    4.60
104606300  2489827       683438    4.00
                         683439    3.90
                         683440    3.95
                         683441    4.30
                         683442    4.40
           3602724       683446    2.16
                         683447    2.32
Name: ODDS, Length: 65, dtype: float64

事实证明np.argmax is速度快得惊人，但是only与本机 numpy 数组。对于国外的数据，几乎所有的时间都花在了转换上：

In [194]: print platform.architecture()
('64bit', 'WindowsPE')

In [5]: x = np.random.rand(10000)
In [57]: l=list(x)
In [123]: timeit numpy.argmax(x)
100000 loops, best of 3: 6.55 us per loop
In [122]: timeit numpy.argmax(l)
1000 loops, best of 3: 729 us per loop
In [134]: timeit numpy.array(l)
1000 loops, best of 3: 716 us per loop

我称你的函数“效率低下”，因为它首先将所有内容转换为列表，然后迭代它 2 次（实际上，3 次迭代 + 列表构造）。

我打算建议这样的事情，只迭代一次：

def imax(seq):
    it=iter(seq)
    im=0
    try: m=it.next()
    except StopIteration: raise ValueError("the sequence is empty")
    for i,e in enumerate(it,start=1):
        if e>m:
            m=e
            im=i
    return im

但是，您的版本速度更快，因为它迭代了很多次，但使用的是 C 代码，而不是 Python 代码。 C 的速度要快得多 - 即使考虑到转换也花费了大量时间：

In [158]: timeit imax(x)
1000 loops, best of 3: 883 us per loop
In [159]: timeit fastest_argmax(x)
1000 loops, best of 3: 575 us per loop

In [174]: timeit list(x)
1000 loops, best of 3: 316 us per loop
In [175]: timeit max(l)
1000 loops, best of 3: 256 us per loop
In [181]: timeit l.index(0.99991619010758348)  #the greatest number in my case, at index 92
100000 loops, best of 3: 2.69 us per loop

因此，进一步加快速度的关键知识是了解序列中的数据本身是什么格式（例如，是否可以省略转换步骤或使用/编写该格式本身的另一个功能）。

顺便说一句，您可能会通过使用获得一些加速aggregate(max_fn)代替agg([max_fn]).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

速度较慢的 numpy.argmax/argmin 的更快替代方案的相关文章

使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x

随机推荐

为什么在 docker 后台使用带有“守护进程关闭”的 nginx？

一切都从这开始article https medium com pentacent nginx and lets encrypt with docker in less than 5 minutes b4b8a60d3a71关于在 dock
Laravel 中是否可以获取数据透视表与另一个表的关系？

我有一个当前具有以下架构的培训应用程序 trainings id name speakers id first name last name training speaker id training id speaker id traini
图像太大，无法在屏幕中显示（MATLAB）

我知道这只是一个警告不会影响代码但我的问题是我需要以实际大小显示图像而不进行任何缩小这可能吗imshowfunction 有没有参数可以做到这一点谢谢你们给出的解决方案是 Jonas https stackoverflow com
有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

我正在尝试 langchains 及其应用程序但作为一个新手我无法理解嵌入和索引如何在这里真正协同工作我知道这两个是什么但我无法找到使用我创建和保存的索引的方法persist directory 我使用以下代码成功保存了 Vecto
通过快速返回键关闭键盘

我是一名使用 Swift 的初学者程序员我一直在开发一个待办事项列表应用程序我试图通过返回键关闭键盘我尝试过 self view endEditing true 和 resignFirstResponder 方法但它们都不起作用这
在 PHP 中：如何使用 include() 函数哪个参数是可变的？

我需要将 include 函数与变量一起使用但是当我尝试这样做时我遇到了一些错误 Code year POST year month POST month day POST day include Event php year yea
SignalR 因超过 2 个连接而失败

我在 SignalR 中编写了一个相当简单的聊天应用程序似乎如果我连接超过 2 个选项卡浏览器设备第三个将挂起并且永远不会连接并最终导致问题为什么我只能与 2 个用户连接当我断开另外两个请求之一时第三个请求就会通过无论我使用
如何使用QVector at或operator[]来获取指向元素的指针

我很想得到一个指向QVector元素这样我就可以在其他地方使用该对象但是at 方法给了我一个const T 值和operator 给我一个T value 我对如何使用它们来获取指针感到困惑以便我将使用相同的对象而不是使用复制构造函数
如何在 Linux 中列出文件的前 10 行或后 10 行而不解压文件 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个 bz2文件我想列出前 10 行或后 10 行而不解压缩它因为它太大了我尝试过head 10 or tail 10但我看到的是胡言乱语
git rebase时进入vim时如何开始打字？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案使用 Powershell 5 时当我键入git rebase i
在android中集成javascript[重复]

这个问题在这里已经有答案了可能的重复 JavaScript 警报在 Android WebView 中不起作用 https stackoverflow com questions 5271898 javascript alert not
HeartBleed python 测试脚本

我碰到这个Python脚本 https gist github com takeshixx 10107280测试服务器是否存在 HeartBleed 漏洞有人能够解释你好的内容正在发送的内容以及该内容是如何构造的吗我并不是想恶意使
无法写入请求：找不到适合请求类型和内容类型的 HttpMessageConverter [application/x-java-serialized-object]

我正在尝试向第三方服务器发送 xml 请求并期待返回 xml 响应我在这里附上用于配置 Cnfiguration 网关和通道自定义 Rest 模板类和要执行的测试客户端的源代码我们有各种用于 XML Posting 的消息转换器但尽
如何在 iOS 上获取 Cognito 用户池“sub”属性

我正在使用 Cognito 用户池授权者无 AWS IAM 选项无自定义编码授权者通过 API 网关调用 Lambda 方法并识别登录 iOS 客户端的用户在 Lambda 上我使用从 Cognito 用户池授权者处获得的用户 I
如何在 PL/pgSQL IF 语句中运行 SELECT 查询

我正在尝试使用以下代码在 PL pgSQL IF 语句中运行 SELECT 查询 DO do DECLARE query type real arr real array 1 BEGIN IF query type 1 THEN RETUR
Javascript匿名函数不更新全局变量

我在一些代码中进行了 getJSON 调用该调用似乎没有更新全局变量但我不明白为什么 JSON 数据加载正常但由于某种原因全局 EventOptions 数组未在 for 循环中更新大写的注释指的是变量有任何想法吗谢谢 fun
无法在外键上创建表（错误号：150）

我看到很多同样的问题但我无法解决我的问题如果我运行这段代码
如何设置 thymeleaf th:来自其他变量的字段值

我有一个简单的文本输入字段我必须在其中设置一个对象的默认值并将其最终值保存在其他对象中以下代码不起作用 div div
简单的分布式 Erlang

我有一个简单的模块 module dist compile add 3 add From X Y gt From X Y 我正在启动两个节点一与 erl sname foo 另一个与 erl sname bar 在我正在做的酒吧节点上 g
速度较慢的 numpy.argmax/argmin 的更快替代方案

我正在使用很多argmin and argmax在Python中不幸的是该功能非常慢我已经做了一些搜索我能找到的最好的就在这里 http lemire me blog archives 2008 12 17 fast argmax

速度较慢的 numpy.argmax/argmin 的更快替代方案

速度较慢的 numpy.argmax/argmin 的更快替代方案 的相关文章

随机推荐

热门标签

速度较慢的 numpy.argmax/argmin 的更快替代方案的相关文章