Numpy 性能差异取决于数值

2023-11-25

在评估 Numpy 中的表达式时，我发现了奇怪的性能差异。

我执行了以下代码：

import numpy as np
myarr = np.random.uniform(-1,1,[1100,1100])

进而

%timeit np.exp( - 0.5 * (myarr / 0.001)**2 )
>> 184 ms ± 301 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)

and

%timeit np.exp( - 0.5 * (myarr / 0.1)**2 )
>> 12.3 ms ± 34.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

在第二种情况下，计算速度几乎快了 15 倍！请注意，唯一的区别是系数为 0.1 或 0.001。

这种行为的原因是什么？我可以更改一些内容以使第一次计算与第二次计算一样快吗？

使用英特尔 SVML

我没有工作numexpr使用英特尔 SVML，但是numexpr使用有效的 SVML 应该表现得和 Numba 一样好。这Numba基准测试在没有 SVML 的情况下表现出完全相同的行为，但在使用 SVML 的情况下表现得更好。

Code

import numpy as np
import numba as nb

myarr = np.random.uniform(-1,1,[1100,1100])

@nb.njit(error_model="numpy",parallel=True)
def func(arr,div):
  return np.exp( - 0.5 * (myarr / div)**2 )

Timings

#Core i7 4771
#Windows 7 x64
#Anaconda Python 3.5.5
#Numba 0.41 (compilation overhead excluded)
func(myarr,0.1)                      -> 3.6ms
func(myarr,0.001)                    -> 3.8ms

#Numba (set NUMBA_DISABLE_INTEL_SVML=1), parallel=True
func(myarr,0.1)                      -> 5.19ms
func(myarr,0.001)                    -> 12.0ms

#Numba (set NUMBA_DISABLE_INTEL_SVML=1), parallel=False
func(myarr,0.1)                      -> 16.7ms
func(myarr,0.001)                    -> 63.2ms

#Numpy (1.13.3), set OMP_NUM_THREADS=4
np.exp( - 0.5 * (myarr / 0.001)**2 ) -> 70.82ms
np.exp( - 0.5 * (myarr / 0.1)**2 )   -> 12.58ms

#Numpy (1.13.3), set OMP_NUM_THREADS=1
np.exp( - 0.5 * (myarr / 0.001)**2 ) -> 189.4ms
np.exp( - 0.5 * (myarr / 0.1)**2 )   -> 17.4ms

#Numexpr (2.6.8), no SVML, parallel
ne.evaluate("exp( - 0.5 * (myarr / 0.001)**2 )") ->17.2ms
ne.evaluate("exp( - 0.5 * (myarr / 0.1)**2 )")   ->4.38ms

#Numexpr (2.6.8), no SVML, single threaded
ne.evaluate("exp( - 0.5 * (myarr / 0.001)**2 )") ->50.85ms
ne.evaluate("exp( - 0.5 * (myarr / 0.1)**2 )")   ->13.9ms

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

NumPy

Numpy 性能差异取决于数值的相关文章

zk 与 gwt zk 请求太多

您好我正在尝试比较 zk 和 gwt 的性能在我的比较中如果框架本身将一些代码转换为js 那么我自己无法编写任何javascript 如get 但我无法自己编写js 在以上述方式编写代码时几乎所有在浏览器上完成的操作都会将请求发送到
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

Firefox 中缓慢滚动和平滑滚动的 Javascript 解决方法

我是一名网络应用程序开发人员在这个应用程序中有一个特定的场景其中有多个position fixed元素 canvas和一个overflow scroll元素在这种情况下当启用平滑滚动时 Firefox 上的滚动速度非常慢从用户的
我可以使用 Newtonsoft.Json 进行严格的反序列化吗？

我正在使用 Newtonsoft Json 来序列化反序列化对象据我所知如果类没有无参数构造函数反序列化就不会成功例子 public class Dog public string Name public Dog string n
如何重新配置 eclipse 以使用 64 位 JVM

我在我认为的所有 64 位运行时环境上使用 eclipse 当前设置Java gt 安装的JRE和执行环境都指向jdk1 6 0 30 这是JDK的64位版本但是 eclipse 仍然认为它正在运行 32 位版本因为当我运行时 Syst
Solr 中的表达式排序

在 SQL 中您可以通过如下表达式进行排序 SELECT FROM a ORDER BY CASE WHEN a Category 20 THEN 1 ELSE 0 DESC 因此类别 20 的记录位于顶部这在 Solr 中可能吗 So
字符串大写 - 更好的方法

哪种资本化方法更好 mine char charArray string toCharArray charArray 0 Character toUpperCase charArray 0 return new String charArr
按字母顺序排列 Unicode 中的阿拉伯语和日语文本？

有谁有 Unicode 中的按字母顺序排列阿拉伯语和日语文本的代码吗如果代码是用 ruby 写的那就太好了 Unicode 代码点不是按字母顺序列出的例如 Z Unicode 排序算法它们也是特定于语言的排序法语顺序与德语或捷克语顺序
在第三方服务器上验证 Android 的 authToken

我正在编写一个 Android 应用程序它使用 AccountManager 来获取令牌我可以通过 Android 应用程序与 Google Picasa 进行交互它工作得很好我想要实现的目标如下将一些文本 authToken 发
Javascript 检测系统的音量（声音）和插入的音频插孔

HTML5 具有板载音量检测功能
SQL Server BIGINT 或 DECIMAL(18,0) 主键

我们有一个 SQL Server 2005 数据库我们希望提高批量删除插入选择的性能我注意到它使用decimal 18 0 为其主键我知道这会给我们带来更多的价值bigint但我希望这可能是一个快速的胜利并且根据我的计算应该能
无法解析“：app@debug/compileClasspath”的依赖关系：无法解析com.android.support：appcompat-v7：26.1.0

无法解析 app debug compileClasspath 的依赖关系无法解析com android support appcompat v7 26 1 0 无法解析 com android support appcompat v7
更新代码生成 6.0.9 后无法加载项目 X 的信息

我正在开发一个 NET Core 项目昨天 Web CodeGeneration已自动更新更新后当我尝试向项目添加新视图时出现错误脚手架失败无法加载项目 X 的信息我尝试再次删除并重新安装所有 nuget 软件包我检查了软件
wcf 尝试设置跟踪以进行调试，而不是写入日志文件

这是我的 web config 在 IIS7 上的应用程序中运行 WCF 服务但没有任何内容写入指定文件已向所有人授予对该文件的权限
使用GCC编译C代码

我在我的电脑上安装了 MinGWWindows8 笔记本电脑并尝试编译 C 代码文件 gcc test c o test exe 编译器没有给出警告或错误但没有创建 test exe 我如何让编译器创建文件 test c My termi
如何在 Django 1.4 中存储简单的日期时间

我有一个格式为 2012 05 19 19 13 00 的简单日期和时间需要使用 Django 1 4 及其时区感知功能来存储它尽管无法知道日期最初位于哪个时区但将其存储为 UTC 似乎是有意义的但是使用 pytz 等我不确定如
将整数格式化为十六进制字符串

我需要从随机整数 0 255 列表中创建一串十六进制数字每个十六进制数字应由两个字符表示 5 05 16 10 等 Example Input 0 1 2 3 127 200 255 Output 000102037fc8ff 我设法想出
模拟按键 X 秒

这是我用来在某个进程中模拟 Tab 键按下的代码 DllImport user32 dll static extern bool PostMessage IntPtr hWnd UInt32 Msg int wParam int lPara
如何确定生成的进程何时准备就绪？（使用 CreateProcess() 和 FindWindow()）

这应该很简单我正在创建一个程序该程序使用 win32 生成一个进程CreateProcess 功能加载此进程后我使用以下命令找到它的窗口FindWindow并使用它发送消息SendMessage 问题是我如何知道该窗口何时准备好接
VSCode 终端建议不会自动完成

VSCode 的 PowerShell 终端现在以灰色显示您可能想要输入的内容大概来自历史记录但似乎没有办法真正接受这个建议按 Tab 键只是执行正常的 PowerShell 自动完成通常是 cmdlet 或路径这个功能是什么我
Java 8 lambda 表达式身份契约

The JavaDoc 为LambdaMetaFactoryJava 1 8 的指定 lambda 捕获可能涉及新函数对象的分配或者可能返回现有函数对象但它没有指定何时以及在什么情况下它可能选择一种方式或另一种方式看看实际执行情况L
Numpy 性能差异取决于数值

在评估 Numpy 中的表达式时我发现了奇怪的性能差异我执行了以下代码 import numpy as np myarr np random uniform 1 1 1100 1100 进而 timeit np exp 0 5 myar

Numpy 性能差异取决于数值

使用英特尔 SVML

Numpy 性能差异取决于数值 的相关文章

随机推荐

热门标签

Numpy 性能差异取决于数值的相关文章