如何使两个数组连续以便 Numba 可以加速 np.dot()

2024-01-22

我有以下代码：

import numpy as np
from numba import jit

Nx = 15
Ny = 1000

v = np.ones((Nx,Ny))
v = np.reshape(v,(Nx*Ny))
A = np.random.rand(Nx*Ny,Nx*Ny,5)
B = np.random.rand(Nx*Ny,Nx*Ny,5)
C = np.random.rand(Nx*Ny,5)
   
@jit(nopython=True)
def dotplus(B, v, C):
    return np.dot(B, v) + C

k = 2
D = dotplus(B[:,:,k], v, C[:,k])

我收到以下警告，我猜它指的是数组B[:,:,k] and v:

NumbaPerformanceWarning: np.dot() is faster on contiguous arrays, called on (array(float64, 2d, A), array(float64, 1d, C))
  return np.dot(B, v0) + C

有没有办法让两个数组连续，这样Numba就可以加速代码？

PS，如果您想知道其含义k，请注意这只是 MRE。在实际代码中，dotplus在一个内部被多次调用for循环不同的值k（因此，不同的切片B and C). The for循环更新的值v, but B and C不要改变。

缺陷是正确的。B[..., k]返回一个np.view() into B，但实际上并不复制任何数据。在内存中，视图的两个相邻元素的距离为B.strides[1]，其评估结果为B.shape[-1]*B.itemsize并且大于B.itemsize。因此，您的数组不是连续的。

最好的优化是向量化dotplus循环并写入

D = np.tensordot(B, v, axes=(1, 0)) + C

第二个最佳优化是重构，让批量维度成为数组的第一个维度。这可以在上述矢量化的基础上完成，并且通常是可取的。它看起来像

A = np.random.rand(5, Nx*Ny,Nx*Ny)
# rather than
A = np.random.rand(Nx*Ny,Nx*Ny,5)

如果您无法重构代码，则需要开始分析。您可以通过以下方式轻松临时交换轴

B = np.moveaxis(B, -1, 0)
some_op(B[k, ...], ...)
B = np.moveaxis(B, 0, -1)

与 max9111 的评论相反，与np.ascontiguousarray()因为在这两种情况下都必须复制数据。也就是说，副本是O(Nx*Ny*k)+ 缓冲区分配。直接矩阵向量乘法是O(Nx*Ny)但你必须先收集元素，这确实很昂贵。这取决于您的特定架构和具体问题，因此分析是最佳选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使两个数组连续以便 Numba 可以加速 np.dot() 的相关文章

如何证明2条sql语句是等价的

我开始用连接和子语句重写一个复杂的 SQL 语句并获得一个看起来更简单的语句我通过在相同的数据集上运行并获得相同的结果集来测试它一般来说我如何概念上证明这两个陈述在任何给定数据集中都是相同的我建议学习关系代数正如 Mchl
特定代码行的类似装饰器的语法

链接主题但不重复装饰器对代码的特定行而不是整个方法进行计时 https stackoverflow com questions 30433910 decorator to time specific lines of the code
使用非负约束进行优化

考虑以下功能 import numpy as np import scipy optimize as opt import math Periodic indexation def pl list i return list i len l
UnicodeDecodeError：“charmap”编解码器|安装 pip python-stdnum==1.8 时出错

我对编程还很陌生所以请耐心等待当我为正在使用的模块安装一些必需的软件包时我无法安装python stdnum 1 8 我收到以下错误消息 File C Users 59996 AppData Local Programs Python
Python daysBetweenDate

我想我可能有一个无限循环因为每当我运行代码时我都会收到一条错误消息它说程序因使用 13 CPU 秒而关闭整个代码应该以日期作为输入并输出第二天此代码假设所有月份都是 30 天除了daysBetweenDates功能正常其他
TypeError：无法在 re.findall() 中的类似字节的对象上使用字符串模式

我正在尝试学习如何自动从页面获取网址在下面的代码中我试图获取网页的标题 import urllib request import re url http www google com regex r pattern re compile
OpenCV Python 和 SIFT 功能

我知道有很多关于Python and OpenCV但我没有找到有关这个特殊主题的帮助我想提取SIFT关键点来自 python OpenCV 中的图像我最近安装了 OpenCV 2 3 可以访问 SURF 和 MSER 但不能访问 SIF
如何在Python中使用getopt/OPTARG？如果给出太多参数 (9)，如何转移参数？

如何在Python中使用getopt optarg 这是我如何做到这一点的示例我通常使用相同的基本模板 import sys import getopt try opts args getopt getopt sys argv 1 m p
python subprocess proc.stderr.read() 引入额外的行？

我想运行一些命令并抓取输出到 stderr 的任何内容我有两个版本的函数可以执行此操作版本 1 def Getstatusoutput cmd Return status output of executing cmd in a she
NoneType 类型的对象没有 len

def medianeven L while len L gt 2 L L 1 len L 1 return average L def medianodd L while len L gt 1 L L 1 len L 1 return L
为什么 import numpy 不会自动包含 matlib

我正在尝试使用水平重复 numpy array xa numpy matlib repmat x 1 3 但是直接输入此内容会导致错误我必须添加import numpy matlib为了a numpy matlib repmat x 1
在Python中寻找坐标系中某些点之间的最短路径

我编写了一个代码可以在坐标系中的特定宽度和长度范围内生成所需数量的点它计算并列出我使用欧几里德方法生成的这些点的距离矩阵我的代码在这里 import pandas as pd from scipy spatial import dis
在此异步设置中，我在哪里捕获 KeyboardInterrupt 异常

我正在开发一个使用ccxt异步库它要求通过显式调用该类的资源来释放某个类使用的所有资源 close 协程我想退出程序ctrl c并等待异常中的关闭协程然而它永远不会被等待该应用程序由模块组成harvesters strategie
使用 South 更改 Django 模型列默认值

我在 Django 项目中使用 South 和 Postgresql DB 我想更改一个模型字段的默认值以供继续使用我不需要以前的记录刚刚新记录我是否需要为此进行迁移或者只是更改模型旧场详细信息 background style
我们可以限制 luigi 任务的吞吐量吗？

我们有一个 Luigi 任务它向第三方服务请求一条信息我们对该 API 调用每分钟可以执行的调用请求数量受到限制有没有办法在每个任务的基础上指定调度程序每单位时间必须运行多少个此类任务我们在任务中实施了自己的速率限制我们的 API
使 ArrayField 的 base_field 对于 Django 中的表来说是唯一的

Goal 下面应该提出一个ValidationError gt gt gt m1 MyModel names name1 gt gt gt m2 MyModel names name1 name2 gt gt gt m1 save gt g
Python - 函数无法在新线程中运行

我正试图杀死notepad exe使用此函数在 Windows 上进行处理 import thread wmi os print CMD Kill command called def kill c wmi WMI Commands not
为什么 `Pool.map()` 多处理中的内存消耗急剧增加？

我正在对 pandas 数据帧进行多重处理方法是将其拆分为多个数据帧这些数据帧存储为列表并且使用Pool map 我将数据帧传递给定义的函数我的输入文件约为 300 mb 因此小数据帧大约为 75 mb 但是当多处理运行时内存
从 Python 脚本创建可执行文件，同时获取较小的输出大小

我的问题可能已经在某个地方得到了解答但我仍然找不到直接的答案我想从 python 代码创建一个独立的可执行文件我已经尝试过很多解决方案例如py2exe pyinstaller等等但我的问题是输出文件大小很大例如在pyinsta
为什么 Pytest 对夹具参数执行嵌套循环

使用 Pytest 我想编写一个测试函数该函数接受多个装置作为参数每个灯具都有几个参数例如 test demo py 中是一个函数test squared is less than 10需要固定装置 negative integer

随机推荐

jquery 的 $.ajax 中从 url 参数中删除附加 url 的方法

我正在使用 cakephp 并想使用jQuery ajax发布到我的服务器问题是 jQuery 的 ajax附加协议和主机名但还包括当前控制器因此我无法更改我粘贴的控制器有没有办法改变 url 参数 ajax 这是我的示例邮政编码
这个程序如何运作？

include
Silverlight 3 和 Silverlight 4 条件 xaml

我现在正在开发一个必须分离项目文件的项目一个符合 Silverlight 3 另一个符合 Silverlight 4 该项目创建了一个在其他几个项目中使用的用户控件不幸的是其中一个处于 SL3 状态现在无法升级这就是为什么需要 S
将目录迁移到不同的 svn 存储库

我在 svn 存储库中有代码将其称为存储库 A 现在假设我需要将内容移动到存储库 B 但存储库 B 已经对其他项目处于活动状态一段时间了是否可以将特定目录从存储库 A 移动到存储库 B 同时保留文件历史记录通常要将整个存储库迁移到新
MapView 显示在灰色瓷砖地图中未显示在 android google api 2.3.3 中

您好我正在开发一个地图视图我尝试遵循以下方式我通过单击按钮创建了一个意图添加权限和库我创建了一个覆盖项目我的模拟器的目标是GoogleApi 2 3 3 我的MapView密钥已获取并分配到mapview xml中我看到底部
Eclipse：快速搜索文件名

在 Eclipse 中工作时我经常意识到我记得类名但忘记了该类在哪个包中使用搜索不是很方便点击和按键次数过多我想知道有没有一个插件可以简化这个过程例如如果包资源管理器顶部有一个文本编辑框可以根据输入的文本过滤显示包和 ja
确定 1 到 0 转换之间的时间

我的表格显示泵的开关状态如下 Value timestamp 1 2013 09 01 00 05 41 987 0 2013 09 01 00 05 48 987 1 2013 09 01 00 05 59 987 0 2013 09
使用reduce进行分组和求和

我想返回一个按团队分组的数组其中包含 gp 胜利失败的总和我试图通过减少来实现这一点但是总数并没有相加这是我的代码 const myArr team Red gp 3 win 2 loss 1 team Black gp 3 wi
Cordova/Phonegap 社交共享

我正在寻找一种简单的解决方案用于在 cordova phonegap 应用程序内部共享我希望添加 Facebook Twitter 和电子邮件共享就像这个应用程序一样 http itunes apple com us app mars
在 Yii 中设置默认时区

我正在使用以下时区配置配置文件 timeZone gt UTC 它工作正常所有日期都根据以下内容存储在数据库中UTC 现在每个用户在他她的个人资料中都有自己的时区例如UTC 5 UTC 5 UTC 0 etc 现在我如何根据用户时区在
我如何知道使用 Azure 存储的代码是否会受到 2015 年 12 月即将删除的 API 版本的影响？ [复制]

这个问题在这里已经有答案了我有一个来自微软的电子邮件 http aka ms Qga48e据说较低版本的存储服务将于 2015 年 12 月被删除我们的应用程序使用 Azure SDK 1 8 和 2 0 我们如何确定我们是否受到此更改
如何创建一个android自动启动应用程序？

如何创建一个安卓自动启动应用程序我的应用程序显示特殊日期通知并且它必须自动启动 tnx 您可以使用报警管理器 http developer android com reference android app AlarmManager h
如何使屏幕上的按钮水平和垂直居中且等距？

我已经绞尽脑汁这里是android新手所以不难做到有一段时间试图找出如何实现这一点使用RelativeLayout或AbsoluteLayout以外的东西来创建它我有 Windows 编程背景其中设备会为您调整绝对定位并且
哈希集与树集

我一直很喜欢树真好O n log n 以及它们的整洁然而我认识的每一位软件工程师都尖锐地问我为什么要使用TreeSet 从 CS 背景来看我认为你使用什么并不重要而且我不喜欢乱搞哈希函数和存储桶在这种情况下 Java 在什么情况
REDCap 自动填充早期记录中的字段

我想用早期记录中该字段中插入的内容填充下拉菜单不带管道的形式具体来说我有一个名为杂志如果之前有人记录过日记代谢组学我希望它出现在下拉菜单或类似的菜单中如果日记是新的我会添加一个文本字段可以在其中添加新日记感谢您的帮
kotlin 嵌套线程 - “此范围内有多个具有此类名称的标签”

我有一些与此类似的 kotlin 代码 Thread Thread return Thread start start 现在我收到以下警告我知道 kotlin 对于此时要返回哪个线程感到困惑无论是外线程还是内线程但我不知道如何告诉它
如何查找哪些对象产生的垃圾最多

我的应用程序包含 80 个不同类的大约 80 个实例这些类的某些子集生成的垃圾量是不可接受的并且停止世界的暂停时间太长因为我的应用程序是实时的我想找到的是哪些类负责创建最大的number堆上对象的数量不是聚合大小而是对象的原始数
Automapper：映射到受保护的财产

我需要映射到protected使用类的属性Automapper 我有一个public此类上公开的方法用于设置属性的值该方法需要一个parameter 如何将值映射到此类目的地舱位 public class Policy private
Pyspark 性能：dataframe.collect() 非常慢

当我尝试在数据帧上进行收集时似乎花费了太长时间我想从数据框中收集数据将其转换为字典并将其插入到 documentdb 中但是执行day rows collect 时性能似乎很慢 day rows self sc sql select
如何使两个数组连续以便 Numba 可以加速 np.dot()

我有以下代码 import numpy as np from numba import jit Nx 15 Ny 1000 v np ones Nx Ny v np reshape v Nx Ny A np random rand Nx N

如何使两个数组连续以便 Numba 可以加速 np.dot()

如何使两个数组连续以便 Numba 可以加速 np.dot() 的相关文章

随机推荐

热门标签