为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？

2024-06-18

我得到了一些我无法解释的效率测试结果。

我想组装一个矩阵 B，其第 i 个条目 B[i,:,:] = A[i,:,:].dot(x)，其中每个 A[i,:,:] 是一个 2D 矩阵， x 也是如此。

我可以通过三种方式做到这一点，为了测试我随机制作的性能（numpy.random.randn) 矩阵 A = (10,1000,1000), x = (1000,1200)。我得到以下时间结果：

(1)单个多维点积

B = A.dot(x)

total time: 102.361 s

(2) 循环i并执行2D点积

   # initialize B = np.zeros([dim1, dim2, dim3])
   for i in range(A.shape[0]):
       B[i,:,:] = A[i,:,:].dot(x)

total time: 0.826 s

(3) numpy.einsum

B3 = np.einsum("ijk, kl -> ijl", A, x)

total time: 8.289 s

因此，选项（2）是迄今为止最快的。但是，仅考虑（1）和（2），我看不出它们之间有很大的区别。循环执行 2D 点积如何能快 124 倍？他们都使用 numpy.dot。有什么见解吗？

我在下面包含了用于上述结果的代码：

import numpy as np
import numpy.random as npr
import time

dim1, dim2, dim3 = 10, 1000, 1200
A = npr.randn(dim1, dim2, dim2)
x = npr.randn(dim2, dim3)

# consider three ways of assembling the same matrix B: B1, B2, B3

t = time.time()
B1 = np.dot(A,x)
td1 = time.time() - t
print "a single dot product of A [shape = (%d, %d, %d)] with x [shape = (%d, %d)] completes in %.3f s" \
  % (A.shape[0], A.shape[1], A.shape[2], x.shape[0], x.shape[1], td1)


B2 = np.zeros([A.shape[0], x.shape[0], x.shape[1]])
t = time.time()
for i in range(A.shape[0]):
    B2[i,:,:] = np.dot(A[i,:,:], x)
td2 = time.time() - t
print "taking %d dot products of 2D dot products A[i,:,:] [shape = (%d, %d)] with x [shape = (%d, %d)] completes in %.3f s" \
  % (A.shape[0], A.shape[1], A.shape[2], x.shape[0], x.shape[1], td2)

t = time.time()
B3 = np.einsum("ijk, kl -> ijl", A, x)
td3 = time.time() - t
print "using np.einsum, it completes in %.3f s" % td3

numpy.dot只代表一个BLAS https://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms矩阵乘法当每个输入的维度最多为 2 时 https://github.com/numpy/numpy/blob/v1.15.0/numpy/core/src/multiarray/multiarraymodule.c#L1025:

#if defined(HAVE_CBLAS)
    if (PyArray_NDIM(ap1) <= 2 && PyArray_NDIM(ap2) <= 2 &&
            (NPY_DOUBLE == typenum || NPY_CDOUBLE == typenum ||
             NPY_FLOAT == typenum || NPY_CFLOAT == typenum)) {
        return cblas_matrixproduct(typenum, ap1, ap2, out);
    }
#endif

当你把整个3维A数组到dot，NumPy 采取较慢的路径，经过nditer目的。它仍然试图利用 BLAS https://github.com/numpy/numpy/blob/v1.15.0/numpy/core/src/multiarray/arraytypes.c.src#L3386在慢速路径中，但慢速路径的设计方式只能使用向量-向量乘法，而不是矩阵-矩阵乘法，这不会给 BLAS 提供尽可能多的优化空间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？的相关文章

在 Pycharm 中使用 scikit-learn 未解析的属性引用“predict()”

当使用 scikit learn 中的决策树分类器时 docs http scikit learn org stable modules tree html展示您将存储分类器的变量重新分配给其自身的输出调用fit method clf t
Python setup.py 运行 shell 脚本

我需要在创建 Python 包时在 sdist 阶段运行我自己的脚本我写了以下脚本你知道更好的方法吗您能否推荐更好的一个或链接到 setuptools 的官方文档其中已解释了这一时刻 import subprocess import
如何使用 pywin32 在 Python 中获取特定应用程序窗口的句柄？

我正在尝试修改一些在 Windows 10 中截取特定应用程序窗口屏幕截图的 Python 代码我正在尝试使用win32ui win32guipywin32 包中的模块用于此目的这是损坏的代码 def getWindow name Wi
使用 Flask 在 Python 中进行长轮询

我正在尝试在 Flask 框架下使用 JQuery 和 Python 进行长轮询之前在 PHP 中做过长轮询我尝试过以同样的方式进行具有 while true 循环的脚本函数定期检查数据库中的更改例如每 0 5 秒并在发生更改
将行转换为 pandas 中逗号分隔的字符串

我有一个熊猫数据框 from pandas import DataFrame import pandas as pd df2 DataFrame a one one two two three two one six b x y z y x
输入到列表并找到同一输入python的最长条纹

我正在编写一个程序其中用户将值输入到列表中直到想要结束为止该程序将告诉用户他们输入的最长连续数字例如如果用户输入 7 7 7 6 6 4 end 则会得到输出您的最长连胜次数为 3 因为 7 已连续输入 3 次到目前为止我有
Django-获取外键对象列表

假设我有以下模型 class ParentModel models Model name models CharField child models ForeignKey ChildModel class ChildModel models
如何在 pandas 中添加堆叠条形图孵化？（...或者如何在 pandas 绘图与 matplotlib 中获得 BarContainer 与 AxesSubplot ？）

我有一个使用的代码示例matplotlib pyplot plot 这是可行的我想复制它以在堆叠条形图上制作阴影条形段然而我一直在使用pandas DataFrame plot 代替matplotlib pyplot plot 并且也
dulwich - 从远程仓库身份验证克隆

我找不到有关此主题的任何资源我需要通过提供用户名和密码从私有存储库进行克隆然而当它们作为关键字参数提供给 dulwich get client from path 时会出现错误提示未知参数用户名这似乎是一件简单的事情但我找
当我执行 pip --version 时，它显示错误为 ImportError：没有名为 pyparsing 的模块

我尝试安装卸载py解析以及它不起作用我被这个问题困住了我还必须安装额外的库这是错误消息 Traceback most recent call last File usr bin pip line 5 in
如何设置appache2的WSGI与python 3.7一起使用？

我使用的是 ubuntu 16 04 并安装了 python 3 7 并使用以下说明将其设置为默认值无法在 ubuntu 中将默认 python 版本设置为 python3 https stackoverflow com question
从 Python 执行 PowerShell 脚本的最佳方式是什么

之前关于该主题的所有帖子都涉及其用例的具体挑战我认为如果有一篇文章只讨论从 Python 运行 PowerShell 脚本的最简洁方法并询问是否有人有比我发现的更好的解决方案那将会很有用绕过 PowerShell 尝试以与预期不同
knitr：python 引擎输出不在 .md 或 .html 中

当我处理 Rmd 文件时没有显示 matplotlib img 是否需要块选项或不同的 matplotlib 方法 title Viz Examples output html document keep md true r testpl
如何使用python在ID3v2 mp3文件上添加SYLT（同步歌词）标签？

我想使用 python 在我的 mp3 文件上添加来自 vtt 的同步歌词我尝试使用诱变模块但它没有按预期工作 from mutagen id3 import ID3 USLT SLT import sys import webvtt
使用 Opencv 屏蔽水平线和垂直线

我正在尝试删除该图像中的水平线和垂直线以便拥有更清晰的文本区域我正在使用下面的代码它遵循这个guide https docs opencv org 3 2 0 d1 dee tutorial moprh lines detection
TensorFlow 的 Print 或 K.print_tensor 不会在损失函数中打印中间张量

我为 Keras 模型编写了一个相当复杂的损失函数并且它不断返回nan训练时因此我需要在训练时打印中间张量我知道你不能在损失函数中执行 K eval 因为张量未初始化不过我都尝试过K print tensor and tf Pr
Python：如何即时生成代码？

我遇到了一个问题我必须动态生成程序然后执行它我们怎样才能做到这一点您可以使用 eval 函数从字符串执行代码一个例子是 import math test r dir math eval test Output doc name pa
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
使用 Python for Linux 模拟按键事件

我正在编写一个脚本来自动运行特定模型当模型失败时它会等待用户输入 Enter 键我可以检测到模型何时失败但我无法使用 python 在 Linux 上来模拟按键事件 Windows 有 SendKeys 库来执行此操作但我想知道
如何使用 python 绘制具有两个斜率的线

我使用下面的代码绘制一条具有两个斜率的线如图所示斜率应该在一定限制 limit 5 之后下降我正在使用矢量化方法来设置斜率值还有其他方法来设置斜率值有人可以帮助我吗 import matplotlib pyplot as plt

随机推荐

Android 何时使用 ContentResolver applyBatch 或 BulkInsert

现在对于我的应用程序当我想要更改 ContentProvider 的数据时我只需使用 ContentResolver 的插入更新和删除方法但在 Android SDK 中的几个示例项目中我注意到它们使用了 applyBatch
多实例 COM 对象

我在 C 中使用 C 编写的 COM 对象我只是通过 new 创建实例我需要很多这样的物体但每个其他新不会创建新实例而仅提供第一个对象的引用这就是为什么我对数据一团糟是否可以每次都获取新实例或者我应该在我的COM中实现IC
向 Serilog 添加自定义属性

我在应用程序中将 Serilog 与 MS SQL Server 接收器一起使用假设我已经定义了以下类 public class Person public string FirstName get set public string L
CKEditor 禁用自动编辑 HTML 代码

我需要在我的 CREditor 之一中禁用自动编辑代码如果我将此代码作为 HTML 放置 div class kontaktJeden div class obr img src images insol png alt div div
优化 SQL Server 上的删除

Deletesql server 上的有时很慢我经常需要优化它们以减少所需的时间我一直在谷歌上搜索一些关于如何做到这一点的提示并且我发现了各种各样的建议我想知道你最喜欢和最有效的驯服删除野兽的技术以及它们如何以及为什么起作用到目
学说 dbal querybuilder 作为准备好的语句

我正在尝试创建一个 Doctrine DBAL 查询生成器对象并在其中设置一个参数使用 postgres db dbal 2 3 4 原则 connection this gt em gt getConnection qb connect
注入的 HttpContext 始终为 null

老实说这太令人兴奋了我无法让它发挥作用无论注入到何处上下文始终为空我是否必须在 Startup cs 中添加上下文实例如果是怎么办始发呼叫 services AddTransient
NGINX 返回 405 不允许使用 POST 方法

我有这个default conf server listen 443 ssl root etc nginx json server name myserver com ssl certificate etc ssl certs server
如何使用正则表达式将多个
标签替换为一个
标签？

I want br br 变成 br 正则表达式的模式是什么注 br 标签可以连续出现两次以上 html preg replace br gt s i br html 这将捕获任何组合 br br or br 它们之间有任意数量或类型的空
paramiko ssh.connect - 要发送什么参数？

我真的很新python and ssh 我正在尝试编写一个简单的程序来打开ssh连接使用python 我已经有了paramiko 但我遇到的问题是使用终端我使用以下命令打开我的ssh ssh username email protecte
存档期间的位码编译永远不会完成

我正在准备一个通过 Test Flight 进行临时分发的应用程序我已经成功完成了这篇 Ray Wenderlich 文章中的所有准备步骤 https www raywenderlich com 48750 testflight sd
如何编写可以与操作系统交互的VLC插件

我需要找出是否有可能以及如何我不关心C C Lua Python 制作一个VLC插件其目的是由VLC播放器在特定时间调用视频流的将执行一些操作我需要做的操作是打开 UDP 套接字并发送从当前播放的视频附带的文件中读取的一些数据我需要
如何在 C++ 中取消引用指向对象指针映射的指针？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在下面的示例中我想访问employeeID从课堂上Employee通过使用指针employeePayroll class Employee
Pandas Dataframe 在由索引分隔的部分中进行插值

我的示例代码如下 import pandas as pd dictx col1 1 nan nan nan 5 nan 7 nan 9 nan nan nan 13 col2 20 nan nan nan 22 nan 25 nan 30
jQuery 验证插件，两个字段之一是必需的

我有一个包含 2 个字段的表单手机号码和电话号码至少必须填写其中 1 个字段但也可以同时填写两个字段如果它们都没有被填充我需要 jquery validate 来抛出错误我通过以下方式实现了这一点 rules mobile r
熊猫：什么是视图？

请帮助我理解什么是view在熊猫中我知道如果我们改变一些东西view我们总是对原始对象进行更改但物体的视图和原始物体有不同id s例如这是否意味着view是另一个对象引用原始对象吗机制是什么我尝试过但找不到解释 import p
Robolectric AndroidX 片段 NoClassDefFoundError

代码和测试迁移到之后AndroidX 一切似乎都工作得很好但是 Robolectric junit 测试两个片段失败了因为NoClassDefFoundError androidx fragment testing R style例外
如何从内存加载值而不污染缓存？

我想读取内存位置而不污染缓存我正在 X86 Linux 机器上工作我尝试使用 MOVNTDQA 汇编指令 asm movntdqa source dest n t dest x my var source m my mem 0 memo
ExtensionInstallForcelist 不断阻止本地扩展

我试图通过注册表强制安装本地扩展一旦我配置了注册表文件 chrome 就会向我显示单词 BLOCKED 参见屏幕截图我制作了一个 Reg 文件来配置它在某些计算机上运行良好但其他计算机则阻止它为了安全起见我更改了一些 ID 并隐
为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？

我得到了一些我无法解释的效率测试结果我想组装一个矩阵 B 其第 i 个条目 B i A i dot x 其中每个 A i 是一个 2D 矩阵 x 也是如此我可以通过三种方式做到这一点为了测试我随机制作的性能 numpy random

为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？

为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？ 的相关文章

随机推荐

热门标签

为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？的相关文章