numba 编译逻辑比较中的性能损失

2024-03-14

以下用于逻辑比较的 numba 编译函数性能下降的原因可能是什么：

from numba import njit

t = (True, 'and_', False)

#@njit(boolean(boolean, unicode_type, boolean))    
@njit
def f(a,b,c):
    if b == 'and_':
        out = a&c
    elif b == 'or_':
        out = a|c
    return out
x = f(*t)
%timeit f(*t)
#1.78 µs ± 9.52 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%timeit f.py_func(*t)
#108 ns ± 0.0042 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

要按照答案中的建议大规模测试这一点：

x = np.random.choice([True,False], 1000000)
y = np.random.choice(["and_","or_"], 1000000)
z = np.random.choice([False, True], 1000000)

#using jit compiled f
def f2(x,y,z):
    L = x.shape[0]
    out = np.empty(L)
    for i in range(L):
        out[i] = f(x[i],y[i],z[i])
    return out

%timeit f2(x,y,z)
#2.79 s ± 86.4 ms per loop

#using pure Python f
def f3(x,y,z):
    L = x.shape[0]
    out = np.empty(L)
    for i in range(L):
        out[i] = f.py_func(x[i],y[i],z[i])
    return out

%timeit f3(x,y,z)
#572 ms ± 24.3 ms per

我是否遗漏了一些东西，是否有办法编译“快速”版本，因为这将成为执行约 1e6 次循环的一部分。

您在一家粒度太小。 Numba 不是为此而设计的。您看到的几乎所有执行时间都来自overhead包装/展开参数、类型检查、Python 函数包装、引用计数等。此外，使用 Numba 的好处非常小，因为 Numba 几乎不优化 unicode 字符串操作。

检查这一假设的一种方法是执行以下简单函数：

@njit
def f(a,b,c):
    return a
x = f(True, 'and_', False)
%timeit f(True, 'and_', False)

在我的机器上，这个简单的函数和原始版本都需要 1.34 µs。

此外，您还可以拆卸Numba 函数可查看仅执行一次调用就执行了多少指令，并深入了解开销来自何处。

如果您希望 Numba 有用，您需要添加更多工作在编译的函数中，可能是直接处理数组/列表。如果由于输入类型的动态特性而无法实现这一点，那么 Numpy 可能不是合适的工具。您可以尝试修改一下您的代码并使用PyPy反而。编写本机 C/C++ 模块可能会有所帮助，但大多数时间将花费在操作动态对象和 unicode 字符串以及进行类型自省上，除非您重写整个代码。

UPDATE

仅当从 Python 类型转换到 Numba 时（反之亦然），才会支付上述开销。您可以通过以下基准看到这一点：

@njit
def f(a,b,c):
    if b == 'and_':
        out = a&c
    elif b == 'or_':
        out = a|c
    return out
@jit
def manyCalls(a, b, c):
    res = True
    for i in range(1_000_000):
        res ^= f(a, b, c ^ res)
    return res

t = (True, 'and_', False)
x = manyCalls(*t)
%timeit manyCalls(*t)

Calling manyCalls在我的机器上需要 3.62 毫秒。这意味着每次调用f平均需要 3.6 ns（16 个周期）。这意味着管理费用只需支付一次（当manyCalls叫做）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

numba 编译逻辑比较中的性能损失的相关文章

如何使用 Java2D 创建硬件加速图像？

我正在尝试创建一个快速图像生成器它可以执行大量 2d 转换和形状渲染因此我尝试使用 BufferedImage 然后获取 Graphics2D 对象来执行所有绘图我现在主要关心的是 make 速度非常快所以我创建一个像这样的 Buf
Json.dump 失败并显示“必须是 unicode，而不是 str”TypeError

我有一个 json 文件其中恰好有大量中文和日文以及其他语言字符我将其加载到我的 python 2 7 脚本中使用io open如下 with io open multiIdName json encoding utf 8 as j
将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
按字符串子字符串的列过滤 Pandas 数据框

我正在尝试使用列中的字符串值是数据框外部字符串的子字符串的条件来过滤数据框下面的例子 df a b c hello bye hello reference str hello there output a c 一种方法可能是使用正则表达式
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件？

我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
如何调试性能问题/优化您的流星应用程序

我刚刚将 Meteor 应用程序部署到 Digital Ocean 上的生产服务器上我注意到对于大约 7500 个文档完全获取对象有选择地仅获取 3 个字段并填充自动完成数据大约需要 3 5 秒我相信对于如此数量的数据来说它应
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
混合两个列表的Pythonic方法[重复]

这个问题在这里已经有答案了我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表其中包含两个中的替代元素即 b 1 a 1 b n a n b n 1 以下方法有
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
为什么在 this 方法中添加 If 语句会大大降低速度？

我在中遇到过这个回答另一个问题 https stackoverflow com questions 12233594 faster way to apply alpha to a jpeg in an android app 我试图诊断哪些
IOError：在 Linux 上的 ReportLab 中使用 matplotlib PNG 时“解码器 zip 不可用”，适用于 Windows

我正在使用 ReportLab 打印 matplotlib 生成的图表我可以在我的 Windows 开发机器上毫无问题地执行此操作然而当我部署到 Ubuntu 服务器时渲染失败并出现所述错误我假设我缺少一个 Python 模块但

随机推荐

在批次之间传递 LSTM 状态的最佳方式

我正在尝试找到在批次之间传递 LSTM 状态的最佳方法我已经搜索了所有内容但找不到当前实施的解决方案想象一下我有类似的东西 cells rnn LSTMCell size for size in 256 256 cells rnn M
在 Linux C 控制台应用程序中模拟按键

有没有办法用C语言在Linux中模拟按键在我的具体情况下我使用的是 Ubuntu 9 04 需要一个简单的应用程序在启动时调用暂停按钮这将使 Firefox 中的 iframe 使用 Javascript 进行刷新我假设你的意
使用 Python-oauth2 在 python 中为 tumblr API 初始化 Oauth 客户端

我是 Oauth 的新手过去对于用 Python 编写的 Twitter 应用程序我使用 python oauth2 库来初始化客户端如下所示 consumer oauth Consumer key CONSUMER KEY sec
如何在 React 中拖放多个元素？

这是我在 StackOverflow 上的第一个问题我想用 React 构建一个小游戏用户可以将四块骨牌拖放到网格上也可以根据自己的喜好重新定位或旋转它们四格骨牌由矩阵表示然后每个块都在 li 元素中渲染 z tetromino
从 html select 中选择的总和

尝试了多种方法进行了大量研究也许我错过了一些东西但无法完成所以我想知道是否可以对 html select 的选定值求和这是我的代码
使用express在node.js中进行本地化[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您使用哪个包在 Node js 中使用 Express 进行本地化 Thanks 节点本地化 http
为什么仅在 CNN 中对通道进行批量归一化

我想知道在卷积神经网络中批量归一化是否应该分别应用于每个像素或者我应该取每个通道的像素平均值我在Tensorflow的描述中看到了这一点tf layers batch normalization https www tensorfl
Visual Studio 2017 HRESULT：0x80004004

我在 Docker 容器中完美地运行了 ASP NET Core 项目但随后我在同一解决方案中创建了另一个项目该项目被第一个项目引用构建时 VS 2017 没有抱怨调试时VS说操作已中止 HRESULT 异常 0x80004004
rtl HTML 页面中的方向 ltr

我试图在 rtl HTML 页面中显示负数该标签似乎没有回应我的direction ltr 我写了一个jsFiddle http jsfiddle net opmaster rWSXX 1 显示相反的场景尝试从右到左显示 Add uni
SwiftUI：什么是 @AppStorage 属性包装器

我曾经使用以下语句将重要的应用程序数据例如登录凭据保存到 UserDefaults 中 UserDefaults standard set email protected cdn cgi l email protection forKe
这种未记录的 RAISERROR 语法是否曾经被记录并随后被弃用？

我正在开发一个大型 SQL Server 代码库其中一些代码库至少从 SQL 7 甚至更早的版本就开始开发了在整个代码库中引发错误的方法是使用以下语法据我所知该语法未记录 RAISERROR
如何优化（最小化）jQuery AJAX 调用

我的代码的不同函数有超过 50 个 AJAX 调用所有这些调用都具有相似的结构但具有不同的数据 url 回调参数 var jqXHR post dba port php mode del wallfunds pdata cdata wn
构建图像时出错：在存储库 docker.io/hyperledger/fabric-baseimage 中找不到最新标签

我将链代码部署到对等网络但没有成功我查看了同行的日志看到了一条错误消息构建镜像时出错在存储库 docker io hyperledger fabric baseimage 中找不到最新标签从中提取特定的基础镜像https hub
如何更改 Django 表行的颜色？

是否可以根据当前对象的值更改行的颜色就我而言我有一个table从模型创建Job The Job有属性delivery If job delivery例如已交付我想将行的颜色更改为红色我唯一想到的是使用JQuery但我不确定这是否有
使用 JS SDK 以您自己的身份（而不是页面）在页面上发表评论 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我正在尝试
在相等运算符实现中引用相等运算符

使用 Reflector 或 DotPeek 相等运算符重载的 System Linq Data Binary 实现如下所示 Serializable DataContract public sealed class Binary IEqu
:before_save 和 :before_update Active Record 回调之间有什么区别？

有人可以向我解释一下两者之间的区别吗 before save and before updateRuby on Rails 4 中的 Active Record 回调我通读了有关 Active Record 回调的官方文档但找不到足够详
如何将 lambda 函数排队到 Qt 的事件循环中？

基本上我需要在 Java 中完成同样的事情 SwingUtilities invokeLater gt function 或者像 JavaScript 中这样 setTimeout gt function 0 但有了 Qt 和 lambda
setTimeout 仅运行一次而不是重复运行[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我想让 div 每 2 秒淡入和淡出一次但 setTimeout 函数只运行一次并隐藏 div 仅此而已它不会执行多次 HTM
numba 编译逻辑比较中的性能损失

以下用于逻辑比较的 numba 编译函数性能下降的原因可能是什么 from numba import njit t True and False njit boolean boolean unicode type boolean njit

numba 编译逻辑比较中的性能损失

numba 编译逻辑比较中的性能损失 的相关文章

随机推荐

热门标签

numba 编译逻辑比较中的性能损失的相关文章