多核机器上单精度数组与双精度数组的矩阵乘法的性能下降

2023-12-28

UPDATE

不幸的是，由于我的疏忽，我有一个旧版本的 MKL (11.1) 与 numpy 链接。新版本的 MKL (11.3.1) 在 C 中和从 python 调用时提供相同的性能。

令人困惑的是，即使将编译后的共享库与较新的 MKL 显式链接，并通过 LD_* 变量指向它们，然后在 python 中执行 import numpy，也会以某种方式使 python 调用旧的 MKL 库。只有通过用较新的 MKL 替换 python lib 文件夹中的所有 libmkl_*.so，我才能匹配 python 和 C 调用的性能。

背景/图书馆信息。

矩阵乘法是通过 sgemm（单精度）和 dgemm（双精度）Intel 的 MKL 库调用（通过 numpy.dot 函数）完成的。库函数的实际调用可以通过以下方式进行验证：奥教授。

这里使用 2x18 核心 CPU E5-2699 v3，因此总共有 36 个物理核心。 KMP_AFFINITY=分散。在Linux上运行。

TL;DR

1) 为什么 numpy.dot 尽管调用相同的 MKL 库函数，但与 C 编译代码相比最多慢两倍？

2) 为什么通过 numpy.dot 性能会随着内核数量的增加而降低，而在 C 代码中却没有观察到相同的效果（调用相同的库函数）。

问题

我观察到在 numpy.dot 中进行单/双精度浮点数的矩阵乘法，以及直接从编译的 C 调用 cblas_sgemm/dgemm共享库与从纯 C 代码内部调用相同的 MKL cblas_sgemm/dgemm 函数相比，性能明显较差。

import numpy as np
import mkl
n = 10000
A = np.random.randn(n,n).astype('float32')
B = np.random.randn(n,n).astype('float32')
C = np.zeros((n,n)).astype('float32')

mkl.set_num_threads(3); %time np.dot(A, B, out=C)
11.5 seconds
mkl.set_num_threads(6); %time np.dot(A, B, out=C)
6 seconds
mkl.set_num_threads(12); %time np.dot(A, B, out=C)
3 seconds
mkl.set_num_threads(18); %time np.dot(A, B, out=C)
2.4 seconds
mkl.set_num_threads(24); %time np.dot(A, B, out=C)
3.6 seconds
mkl.set_num_threads(30); %time np.dot(A, B, out=C)
5 seconds
mkl.set_num_threads(36); %time np.dot(A, B, out=C)
5.5 seconds

与上面完全相同，但使用双精度 A、B 和 C，您将得到： 3核：20s，6核：10s，12核：5s，18核：4.3s，24核：3s，30核：2.8s，36核：2.8s。

单精度浮点速度的提高似乎与缓存未命中有关。对于 28 核运行，以下是 perf 的输出。对于单精度：

perf stat -e task-clock,cycles,instructions,cache-references,cache-misses ./ptestf.py
631,301,854 cache-misses # 31.478 % of all cache refs

和双精度：

93,087,703 cache-misses # 5.164 % of all cache refs

C 共享库，编译为

/opt/intel/bin/icc -o comp_sgemm_mkl.so -openmp -mkl sgem_lib.c -lm -lirc -O3 -fPIC -shared -std=c99 -vec-report1 -xhost -I/opt/intel/composer/mkl/include

#include <stdio.h>
#include <stdlib.h>
#include "mkl.h"

void comp_sgemm_mkl(int m, int n, int k, float *A, float *B, float *C);

void comp_sgemm_mkl(int m, int n, int k, float *A, float *B, float *C)
{
    int i, j;
    float alpha, beta;
    alpha = 1.0; beta = 0.0;

    cblas_sgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,
                m, n, k, alpha, A, k, B, n, beta, C, n);
}

Python包装函数，调用上面编译的库：

def comp_sgemm_mkl(A, B, out=None):
    lib = CDLL(omplib)
    lib.cblas_sgemm_mkl.argtypes = [c_int, c_int, c_int, 
                                 np.ctypeslib.ndpointer(dtype=np.float32, ndim=2), 
                                 np.ctypeslib.ndpointer(dtype=np.float32, ndim=2),
                                 np.ctypeslib.ndpointer(dtype=np.float32, ndim=2)]
    lib.comp_sgemm_mkl.restype = c_void_p
    m = A.shape[0]
    n = B.shape[0]
    k = B.shape[1]
    if np.isfortran(A):
        raise ValueError('Fortran array')
    if m != n:
        raise ValueError('Wrong matrix dimensions')
    if out is None:
        out = np.empty((m,k), np.float32)
    lib.comp_sgemm_mkl(m, n, k, A, B, out)

然而，来自 C 编译二进制文件的显式调用（调用 MKL 的 cblas_sgemm / cblas_dgemm）以及通过 C 中的 malloc 分配的数组，与 python 代码（即 numpy.dot 调用）相比，性能几乎提高了 2 倍。此外，没有观察到随着内核数量的增加而导致性能下降的影响。单精度矩阵乘法的最佳性能为 900 ms通过 mkl_set_num_cores 使用全部 36 个物理核心并使用 numactl --interleave=all 运行 C 代码时实现。

也许有任何奇特的工具或建议可以进一步分析/检查/理解这种情况？任何阅读材料也非常受欢迎。

UPDATE按照 @Hristo Iliev 的建议，运行 numactl --interleave=all ./ipython 并没有改变计时（在噪音范围内），但改善了纯 C 二进制运行时。

我怀疑这是由于不幸的线程调度造成的。我能够重现与您类似的效果。 Python 的运行时间约为 2.2 秒，而 C 版本的运行时间在 1.4-2.2 秒之间存在巨大差异。

申请：KMP_AFFINITY=scatter,granularity=thread这可确保 28 个线程始终在同一处理器线程上运行。

将 C 的运行时间减少到更稳定的约 1.24 秒，将 Python 的运行时间减少到约 1.26 秒。

这是在 28 核双路 Xeon E5-2680 v3 系统上。

有趣的是，在非常相似的 24 核双插槽 Haswell 系统上，即使没有线程关联/固定，Python 和 C 的性能也几乎相同。

为什么python会影响调度？好吧，我假设它周围有更多的运行时环境。最重要的是，如果不固定，您的性能结果将是不确定的。

您还需要考虑，Intel OpenMP 运行时会产生一个额外的管理线程，这可能会混淆调度程序。固定还有更多选择，例如KMP_AFFINITY=compact- 但由于某种原因，我的系统完全混乱了。你可以加,verbose到变量以查看运行时如何固定线程。

利克维德平 https://github.com/RRZE-HPC/likwid/wiki/Likwid-Pin是一种有用的替代方案，提供更方便的控制。

一般来说，单精度应该至少与双精度一样快。双精度可能会更慢，因为：

您需要更多的内存/缓存带宽来实现双精度。
您可以构建具有更高单精度吞吐量的 ALU，但这通常不适用于 CPU，而是适用于 GPU。

我认为一旦你消除了性能异常，这就会反映在你的数字中。

当您扩大 MKL/*gemm 的线程数时，请考虑

内存/共享缓存带宽可能成为瓶颈，限制可扩展性
Turbo模式在提高利用率的同时会有效降低核心频率。即使您以标称频率运行，这也适用：在 Haswell-EP 处理器上，AVX 指令将施加较低的“AVX 基本频率” - 但当使用较少核心/可用热空间时，处理器允许超过该频率，并且通常甚至是这样更多的时间较短。如果您想要完全中性的结果，则必须使用 AVX 基本频率，即 1.9 GHz。有记录here http://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v3-spec-update.pdf，并在中解释一张照片 http://images.anandtech.com/doci/8423/Hep_AVX_turbo.png.

我认为没有一种真正简单的方法来衡量您的应用程序如何受到不良调度的影响。你可以暴露这个perf trace -e sched:sched_switch并且有一些软件 http://tu-dresden.de/zih/perf/可视化这一点，但这将伴随着很高的学习曲线。再说一遍 - 对于并行性能分析，无论如何您都应该固定线程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多核机器上单精度数组与双精度数组的矩阵乘法的性能下降的相关文章

python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
C# 获取数据表中所有重复行的计数

我通过运行存储过程来填充数据集并且从数据集中填充数据表 DataSet RawDataSet DataAccessHelper RunProcedure storedprocedureName this will just return
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
对于 C# Express 用户来说，有哪些好的工具可以识别可能重复的代码？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案也可以看看有什么工具可以检查重复的 VB NET 代码吗 https stackoverflow c
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
SQLAPI++ 的免费替代品？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何免费也许是开源的替代品SQLAPI http www sqlapi com 这个库看起来
Xamarin Forms Binding - 访问父属性

我无法访问页面的 ViewModel 属性以便将其绑定到 IsVisible 属性如果我不设置 BindingContext 我只能绑定它有没有办法可以在设置 BindingContext 的同时访问页面的 viewmodel root
C++ 指针引用混淆

struct leaf int data leaf l leaf r struct leaf p void tree findparent int n int found leaf parent 这是 BST 的一段代码我想问一下为什么
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
在 C# 的 WebAPI 中的 ApiController 上使用“传输编码：分块”提供数据

我需要服务分块传输使用编码数据API控制器因为我无权访问HttpContext or the Http请求我有点不知道在哪里写入响应以及在哪里刷新它设置如下 public class MyController ApiControlle
如何高效计算连续数的数字积？

我正在尝试计算数字序列中每个数字的数字乘积例如 21 22 23 98 99 将会 2 4 6 72 81 为了降低复杂性我只会考虑连续的数字 http simple wikipedia org wiki Consecutive in
如何从 Windows Phone 7 模拟器获取数据

我有一个 WP7 的单元测试框架它在手机上运行结果相当难以阅读因此我将它们写入 XDocument 我的问题是如何才能将这个 XML 文件从手机上移到我的桌面上以便我可以实际分析结果到目前为止我所做的是将 Debugger B
从后面的代码添加外部 css 文件

我有一个 CSS 文件例如 SomeStyle css 我是否可以将此样式表文档从其代码隐藏应用到 aspx 页面您可以将文字控件添加到标头控件中 Page Header Controls Add new System Web UI L
如果找不到指定的图像文件，显示默认图像的最佳方式？

我有一个普通的电子商务应用程序我将 ITEM IMAGE NAME 存储在数据库中有时经理会拼错图像名称为了避免丢失图像 IE 中的红色 X 每次显示产品列表时我都会检查服务器中是否有与该产品相关的图像如果该文件不存在我会将其
如何在 C# 中获取 CMD/控制台编码

我需要指定正确的代码页来使用 zip 库打包文件正如我所见我需要指定控制台编码在我的例子中为 866 C Users User gt mode Status for device CON Lines 300 Columns 130 K
如何为有时异步的操作创建和实现接口

假设我有数百个类它们使用计算方法实现公共接口一些类将执行异步例如读取文件而实现相同接口的其他类将执行同步代码例如将两个数字相加为了维护和性能对此进行编码的好方法是什么到目前为止我读到的帖子总是建议将异步等待方法冒泡给调

随机推荐

如何将 XML 从 C# 传递到 SQL Server 2008 中的存储过程？

我想将 xml 文档传递给 sql server 存储过程如下所示 CREATE PROCEDURE BookDetails Insert xml xml 我想将一些字段数据与其他表数据进行比较如果匹配则必须将记录插入到表中要求如何
您无法使用 glide 启动相对布局图像中被破坏的活动的加载

我正在使用relativelayout来设置图像为什么我没有使用imageview意味着在relativelayout图像内我正在设置图标我不知道 glide 到底出了什么问题我已经在下面发布了堆栈跟踪和相关代码 Logcat F
scalatest ：对象 scalatest 不是包 org 的成员

EDIT 如果文件位于则有效src test scala tests 但不在src main scala mypackage Why 我已经尝试过人们遇到几乎相同问题的主题的解决方案但没有一个有效有关详细信息我在 build sbt
console.log.apply 在 IE9 中不起作用

看起来我已经重新发明了轮子但不知怎的这在 Internet Explorer 9 中不起作用但在 IE6 中却起作用 function debug if window console window console log functi
如何解决“警告：应用程序未指定 API 级别要求”？

你好我正在编写一个 Android 应用程序但是当我运行该应用程序时会生成以下应用程序并且应用程序不会出现在 Windows 上请帮忙如果我能找到正确的解决方案我将不胜感激要解决此警告请添加
我如何告诉（本地）mercurial 服务器处于非发布状态？

我如何告诉 Mercurial 远程服务器最初位于位桶 http bitbucket org例如但他们不再支持 Mercurial 当我无权访问远程时是非发布的 hg hgrc file 背景 Mercurial 的最新版本有一个概念p
AJAX 调用中的变量范围

我经常问自己的一个问题是当在发出 AJAX 调用的函数中声明变量时 javascript 怎么可能仍然在 AJAX 请求的回调函数中引用这是一个例子 var loadMask name test form submit url requ
使用 ASP.net MVC 执行提交（回发）和重定向

我想用submit从我的标记到 ASP net MVC 操作然后我想将请求重定向到另一个网址我可以这样做吗或者MVC只对应ajax 如果您使用的是Html BeginForm http msdn microsoft com en us
如果 Jira Issue 键不在提交消息中，则限制 Subversion 提交

我使用 SVN 1 7 4 进行版本控制使用 atlassian JIRA 作为我的 LAMP 网站的问题跟踪器如果我的任何团队成员在未提及 Jira Issue 密钥的情况下进行提交我想限制 SVN 提交我正在独立使用 JIRA
ZSH 抱怨 RVM __rvm_cleanse_variables: 找不到函数定义文件

在 Mac OS X 10 7 4 上使用最新的 ZSH 和 RVM 时 ZSH 会抱怨这一点 rvm cleanse variables function definition file not found 运行以下命令解决了问题 rm
在 Python 中创建一个列表——发生了什么鬼祟的事情？

如果这没有任何意义我很抱歉我对 Python 很陌生通过解释器的测试我可以看到list and 两者都会产生一个空列表 gt gt gt list gt gt gt 根据我到目前为止所学到的创建对象的唯一方法是调用它的构造函数 i
有向加权图的邻接矩阵与邻接表

作为一项练习我必须建立一个卫星导航系统该系统规划从一个地点到另一个地点的最短和最快的路线它必须在不使用太多内存的情况下尽可能快地完成我无法决定使用哪种结构来表示该图我知道矩阵更适合密集图而列表更适合稀疏图我更倾向于使用列表因
水平菜单在宽屏显示器上显示不正确

我为网站实现的水平菜单有一个小问题该菜单仅包含三个项目但在相当大的宽屏显示器上查看时最后一个项目似乎折叠到一个新行我实际上无法自己测试这一点因为我的客户使用宽屏显示器虽然我无法重现他们向我发送的此屏幕截图的错误客户端在 Win
如何在Python中将日期时间对象移动12小时

由于某种原因日期时间对象让我很头疼我写信是为了弄清楚如何将日期时间对象移动 12 小时我还需要知道如何确定两个日期时间对象是否相差 1 分钟或更长时间 The datetime http docs python org library
将 Chrome 设置为 RSpec/Capybara 的默认浏览器

我在让 Chrome 在 Ubuntu 13 10 64 位上与 RSpec Capybara 配合使用时遇到一些问题默认情况下它启动 Firefox 我们尝试通过多种方式改变这一点包括 http actsasblog ca 2011
曾几何时，> 比 < 更快……等等，什么？

我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒相信我我当前的主题
Android 中通过 SIP 进行视频通话

我是 Android 初学者正在开发一个可以使用 SIP 通过 IP 进行视频通话的应用程序我在 Google 和 StackOverflow 上搜索了很多得到的只是我需要一些 Native Library 而我对它没有太多了解我关
如何在 C# 中仅反序列化 XML 文档的一部分

这是我试图解决的问题的一个虚构示例如果我使用 C 工作并且有这样的 XML
.NET：检查 URL 的响应状态代码？

在 NET 中检查 Web 服务器回复 GET 请求的状态代码的最简单方法是什么请注意我不需要响应的正文事实上如果可能的话只应该请求标头然而话虽如此如果请求省略响应正文会显着增加代码的复杂性那么接收正文就可以了另外我对
多核机器上单精度数组与双精度数组的矩阵乘法的性能下降

UPDATE 不幸的是由于我的疏忽我有一个旧版本的 MKL 11 1 与 numpy 链接新版本的 MKL 11 3 1 在 C 中和从 python 调用时提供相同的性能令人困惑的是即使将编译后的共享库与较新的 MKL 显式链接

多核机器上单精度数组与双精度数组的矩阵乘法的性能下降

多核机器上单精度数组与双精度数组的矩阵乘法的性能下降 的相关文章

随机推荐

热门标签

多核机器上单精度数组与双精度数组的矩阵乘法的性能下降的相关文章