OpenCL 矩阵乘法应该更快？

2024-04-25

我正在尝试学习如何使 GPU 优化 OpenCL 内核，我以使用本地内存中的方形图块进行矩阵乘法为例。然而在最好的情况下，我只得到了约 10 倍的加速（约 50 Gflops）与 numpy.dot() 相比（5 Gflops，它使用的是 BLAS）。

我发现研究在哪里他们的加速比>200x（>1000 Gflops）. ftp://ftp.u-aizu.ac.jp/u-aizu/doc/Tech-Report/2012/2012-002.pdf ftp://ftp.u-aizu.ac.jp/u-aizu/doc/Tech-Report/2012/2012-002.pdf我不知道我做错了什么，或者只是因为我的 GPU ( nvidia GTX 275 )。或者如果是因为一些 pyOpenCl 开销。但我还测量了将结果从 GPU 复制到 RAM 需要多长时间，它只是矩阵乘法时间的 10% 左右。

#define BLOCK_SIZE 22 
__kernel void matrixMul(
      __global float* Cij, 
      __global float* Aik, 
      __global float* Bkj, 
      __const int ni, 
      __const int nj,
      __const int nk
){
//   WARRNING : interchange of  i  and  j  dimension  lower the performance >2x on my nV GT275 GPU    
int gj = get_global_id(0);    int gi = get_global_id(1); 
int bj = get_group_id(0);     int bi = get_group_id(1);  // Block index
int tj = get_local_id(0);     int ti = get_local_id(1);  // Thread index
int oj = bi*BLOCK_SIZE;       int oi = bj*BLOCK_SIZE; 
float Csub =0; 
__local float As   [BLOCK_SIZE][BLOCK_SIZE];
__local float Bs   [BLOCK_SIZE][BLOCK_SIZE];
for (int ok = 0; ok < nk; ok += BLOCK_SIZE )   {
    As[ti][tj] = Aik[ nk*(gi   ) + tj + ok ];   // A[i][k]
    Bs[ti][tj] = Bkj[ nj*(ti+ok) + gj ];        // B[k][j]
    barrier(CLK_LOCAL_MEM_FENCE);
    for (int k = 0; k < BLOCK_SIZE; ++k) Csub += As[ti][k] * Bs[k][tj];
    barrier(CLK_LOCAL_MEM_FENCE);
}
Cij[ nj * ( gi ) + gj ] = Csub;

}

注意 - 奇怪的 BLOCK_SIZE=22 是最大 BLOCK_SIZE，它适合最大 work_group_size，在我的 GPU 上为 512。在此代码中必须保持条件 BLOCK_SIZE^2

我还尝试了简单的matrixMul（不使用本地内存），但它甚至比numpy.dot()慢10倍。我在这里复制了代码http://gpgpu-computing4.blogspot.cz/2009/10/matrix-multiplication-3-opencl.html http://gpgpu-computing4.blogspot.cz/2009/10/matrix-multiplication-3-opencl.html他们说即使是简单版本（没有本地内存）的运行速度也应该比 CPU 快 200 倍？我不明白这一点。

在我的例子中，性能的依赖性是：

N =  220 numpy 3.680 [Gflops] GPU 16.428 [Gflops] speedUp 4.464 
N =  330 numpy 4.752 [Gflops] GPU 29.487 [Gflops] speedUp 6.205 
N =  440 numpy 4.914 [Gflops] GPU 37.096 [Gflops] speedUp 7.548 
N =  550 numpy 3.849 [Gflops] GPU 47.019 [Gflops] speedUp 12.217 
N =  660 numpy 5.251 [Gflops] GPU 49.999 [Gflops] speedUp 9.522 
N =  770 numpy 4.565 [Gflops] GPU 48.567 [Gflops] speedUp 10.638 
N =  880 numpy 5.452 [Gflops] GPU 44.444 [Gflops] speedUp 8.152 
N =  990 numpy 4.976 [Gflops] GPU 42.187 [Gflops] speedUp 8.478 
N = 1100 numpy 5.324 [Gflops] GPU 83.187 [Gflops] speedUp 15.625 
N = 1210 numpy 5.401 [Gflops] GPU 57.147 [Gflops] speedUp 10.581 
N = 1320 numpy 5.450 [Gflops] GPU 48.936 [Gflops] speedUp 8.979

注意 - “Gflops”数字是按 N^3/次获得的，它确实包括将结果从 GPU 复制到主内存所需的时间，但这个时间仅占总时间的百分之几，特别是对于 N>1000

也许更形象的是以秒为单位的时间：

N =  220 numpy 0.003 [s] GPU 0.001 [s] load 0.001 [s] speedUp 5.000 
N =  330 numpy 0.008 [s] GPU 0.001 [s] load 0.001 [s] speedUp 7.683 
N =  440 numpy 0.017 [s] GPU 0.002 [s] load 0.001 [s] speedUp 7.565 
N =  550 numpy 0.043 [s] GPU 0.004 [s] load 0.001 [s] speedUp 11.957 
N =  660 numpy 0.055 [s] GPU 0.006 [s] load 0.002 [s] speedUp 9.298 
N =  770 numpy 0.100 [s] GPU 0.009 [s] load 0.003 [s] speedUp 10.638 
N =  880 numpy 0.125 [s] GPU 0.010 [s] load 0.000 [s] speedUp 12.097 
N =  990 numpy 0.195 [s] GPU 0.015 [s] load 0.000 [s] speedUp 12.581 
N = 1100 numpy 0.250 [s] GPU 0.031 [s] load 0.000 [s] speedUp 8.065 
N = 1210 numpy 0.328 [s] GPU 0.031 [s] load 0.000 [s] speedUp 10.581 
N = 1320 numpy 0.422 [s] GPU 0.047 [s] load 0.000 [s] speedUp 8.979

我在想也许可以使用以下方法来提高速度 async_work_group_copy 甚至 read_imageui 将块复制到本地内存。但我不明白为什么当我使用与那些说他们有 200 倍加速的人基本相同的代码时我有这么大的差异？？？

甚至不看你的代码，让我对你的基准进行一些评论。让我们忽略 numpy，并比较 Intel CPU 与 Nvidia 和 AMD GPU 的最大 SP FLOPs/s 和 DP FLOPs/s。

4 GHz 的 Intel 2600K 可以执行 4 GHz * (8 AVX) * (2 ILP) * ( 4 核) = 256 SP GFLOPs/s。对于 DP，它是一半：128 DP GFLOPs/s。几周后推出的 Haswell 将使这两个数字翻倍。英特尔 MKL 库在 GEMM 中的效率高于 80%。我自己的 GEMM 代码在我的 i7-2700 上获得了 70%，所以你用 numpy 引用的 5 GFlops/s 很小，比较不公平。

我不知道 GTX 275 的能力如何，但我猜它的速度远远超过 50 GFLOPs/s。

您引用的文章对 AMD 7970 进行了比较。它们获得 848（90% 效率）DP GFlops/s 和 2646（70% 效率）SP GFlops/s。这接近 CPU 性能的 10 倍，而不是 200 倍！

编辑：您对 FLOP 的计算是错误的，它应该是 2.0*n^3。这仍然是近似值，但渐近正确。让我解释。

考虑 3D 点积。是x1*x2+y1*y2+z1*z2。这是 3 次乘法和 2 次加法。因此，N 维点积是 n 次乘法和 (n-1) 次加法。矩阵乘积相当于 nxn 点积，即 n*n*n 次乘法和 n*n*(n-1) 次加法。这大约是 2.0*n^3 FLOPS。因此，您应该将所有 Gflops/s 数字加倍。

编辑：您可能需要考虑内核时间。自从我使用 OpenCL 以来已经有一段时间了，但是使用 C++ 绑定我做了这样的事情

queue = cl::CommandQueue(context, devices[device], CL_QUEUE_PROFILING_ENABLE|CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE, &err);
//other code...run kernel

time_end = clevent.getProfilingInfo<CL_PROFILING_COMMAND_END>();  
time_start = clevent.getProfilingInfo<CL_PROFILING_COMMAND_START>();

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OpenCL 矩阵乘法应该更快？的相关文章

在用户提交的正则表达式中查找捕获组

我有一个 python 应用程序需要处理用户提交的正则表达式出于性能考虑我想禁止捕获组和反向引用我的想法是使用另一个正则表达式来验证用户提交的正则表达式不包含任何命名或未命名的组捕获如下所示 def validate user r
用索引更新表太慢

我正在观察我们应用程序的实时系统上的探查器我发现我们定期每秒运行一条更新指令速度相当慢每次大约需要400ms 查询包含此更新这是缓慢的部分 UPDATE BufferTable SET LrbCount LrbCount 1 L
“const”声明是否有助于编译器（GCC）生成更快的代码？ [复制]

这个问题在这里已经有答案了 Do const声明有助于编译器 GCC 生成更快的代码还是仅对可读性和正确性有用泽德肖认为const在 C C 中无用或过度使用接下来是对 const 的所有奇怪的迷恋由于某些奇怪的原因 C 喜欢让你
使用 hisorian.py 时显示“找不到结束时间”

我正在尝试收集我的应用程序的电池统计信息运行指定的所有命令后http developer android com tools performance batterystats battery historian index html ht
比较 .NET 中的两个字节数组

我怎样才能快速做到这一点当然我可以这样做 static bool ByteArrayCompare byte a1 byte a2 if a1 Length a2 Length return false for int i 0 i
矩阵求逆 (3,3) python - 硬编码与 numpy.linalg.inv

对于大量矩阵我需要计算定义为的距离度量尽管我确实知道强烈建议不要使用矩阵求逆但我没有找到解决方法因此我尝试通过对矩阵求逆进行硬编码来提高性能因为所有矩阵的大小均为 3 3 我预计这至少会是一个微小的改进但事实并非如此为什么
MPI Alltoallv 还是更好的单独发送和接收？（表现）

我有许多进程大约 100 到 1000 个每个进程都必须将一些数据发送到其他一些进程比如大约 10 个通常但并非总是必要如果 A 发送到 B B 也会发送到 A 每个进程都知道它必须从哪个进程接收多少数据所以我可以用MPI A
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正
使用 perf 查找线程瓶颈并优化挂机时间

对 cpu 周期进行采样perf record如果核心利用率大致恒定则对于寻找优化候选非常有用但对于具有并行性不同的多个阶段的代码计算 cpu 周期将重点强调并行阶段而低估影响挂机时间的顺序或有限并行阶段简而言之天真的 perf
C# 字典循环增强

我有一本包含大约 100 万个条目的字典我不断地循环字典 public void DoAllJobs foreach KeyValuePair
使用 html 属性的 DOM 惩罚

我正在考虑使用 HTML5 数据属性来更轻松地编写我的应用程序的第三方脚本因此考虑两种情况页面上有 10 000 个 HTML 元素例如 div Sticker div 还有其他 10 000 个 HTML 元素例如 div St
在二维平面中找到距离 P 点最近的 K 个点

资料来源亚马逊面试问题解决方案1制作大小为 K 的堆并按最小距离收集点O NLogK 复杂解决方案2 取大小为 N 的数组并按距离排序应该使用QuickSort 霍尔修改取前 K 点作为答案这太复杂了 NlogN 但可以优化到近
数百个空闲线程的影响

我正在考虑使用可能数百个线程来实现通过网络管理设备的任务这是一个在带有 Linux 内核的 powerpc 处理器上运行的 C 应用程序在每个任务进行同步以将数据从设备复制到任务的初始阶段之后任务变得空闲并且仅在收到警报或需要更改一
高性能 C# 服务器套接字的提示/技术

我有一个 NET 2 0 服务器似乎遇到了扩展问题可能是由于套接字处理代码的设计不佳我正在寻找有关如何重新设计它以提高性能的指导使用场景 50 150 个客户端每个客户端以高速率高达 100 秒秒发送小消息每条 10 字节
如何有效地计算 Perl 中覆盖给定范围的范围？

我有一个大约 30k 范围的数据库每个范围都作为一对起点和终点给出 12 80 34 60 34 9000 76 743 我想编写一个 Perl 子例程来表示一个范围不是来自数据库并返回数据库中完全包含给定范围的范围数例如如果
如何编写更高效的代码

世纪问题我基本上想知道如果我将此代码编写为几个不同的变量或使用小数组哪个会更有效 int x 34 int y 28 int z 293 vs double coordinate 3 34 28 293 我有一个坐标结构我将按以下方式
如果我将一个大函数声明为内联函数怎么办？

我搜索了一些相关问题例如C 中内联函数的好处 https stackoverflow com questions 145838 benefits of inline functions in c 但我还有疑问如果内联函数只是为了为编译
我想优化这个短循环

我想优化这个简单的循环 unsigned int i while j 0 j is an unsigned int with a start value of about N 36 000 000 float sub 0 i 1 unsig
HTML if 语句在 CDN 失败时加载本地 JS/CSS

当从 CDN 或任何外部服务器加载 CSS JS 文件时有可能即使概率很低由于外部故障而丢失该文件在这种情况下 html 页面将因缺乏适当的 CSS 和 JS 而被损坏有没有一种实用的方法可以在 CDN 故障时加载本地版本 IF
FindAsync 很慢，但是延迟加载很快

在我的代码中我曾经使用加载相关实体await FindAsync 希望我能更好地遵守 C 异步指南 var activeTemplate await exec DbContext FormTemplates FindAsync exec

随机推荐

Angular 2 --aot 导致 AnimationEntryMetadata 失败

我的代码可以正常工作ng build and ng build prod但是当我将 oat 添加到命令中时它会失败并出现以下错误 Uncaught Error Module build failed Error C Users drem
Google 气泡图自定义工具提示列不呈现

我正在尝试将自定义工具提示添加到气泡图中以替换默认的工具提示我已按照文档网站的说明进行操作 here https developers google com chart interactive docs customizing tool
MultipartFile 文件名中的特殊字符转换为？在春季启动

我想知道为什么 spring boot 将 MultiPartFile 文件名特殊字符转换为例如 pdf 转换为 pdf 我需要配置 Spring 来禁用此行为吗我已经检查了我的 jvm 配置中的 file encoding 它已经设置
DRY：如何在 Symfony2 项目的多个实体中使用此代码？特质？

我有一段重复的代码将在我的 Symfony2 项目中的多个实体中使用因此应用某种 DRY 就可以了当然如果可能的话我正在考虑PHP 特性 http php net manual en language oop5 traits php
如何在M1 arm64架构上安装PyQt5？

我有一台 M1 mac 但我注意到每当本机 python 运行任何自动化脚本如 PyAutoGui 时它都会逐渐变得越来越慢几乎就像受到了限制一样我用 Miniforge3 创建了一个能够利用 Apple 芯片的环境使脚本运行得
如何制作进度条

如何在 html css javascript 中制作进度条我真的不想使用Flash 可以在这里找到类似的内容 http dustincurtis com about html http dustincurtis com about ht
缩放 ImageView 的图像，同时将中心点保持在同一位置

我已将预缩放位图设置为 ImageView 的源然后我读了矩阵ImageView并通过以下方式移动 ImageView 的位图matrix postTranslate shiftX shiftY 现在我想放大缩小图像同时保持中心Ima
Android Volley POST Json 到服务器

我正在使用 Volley 在 Android 设备和网络服务器之间传输数据我发现有关将数据列表发送到服务器的问题例如我的类将生成如下数据集 1 1 aID 5 2 aID 5 3 aID 5 4 aID 5 2 1 bID 3 2 b
ArrayLists 比数组慢 2 倍

我正在测试一种分子动力学算法该算法除其他外还有一个 Particle 类由9 双精度数组存储粒子分量 3D 环境中的速度力和位置我使用 5 个输入大小测试算法 Size MB Time s 0 06 0 36 fits in ca
将浏览器配置文件传递给 docker 容器内的 selenium 的正确方法是什么？

我需要启动selenium inside docker容器将浏览器配置文件传递给很重要webdriver Here s docker compose version 2 services worker main build app vol
facebook-android-sdk 错误：发布共享对话框需要publish_actions

我需要对我的应用程序进行publish actions才能在用户墙中发布但它被拒绝了因为据说 Facebook不需要publish actions 但我尝试使用共享对话框通过以下代码共享图片 SharePhoto photo new
Apache Spark 中的线性回归给出错误的截距和权重

对 y 2 x1 3 x2 4 的虚拟数据集 y x1 x2 使用 MLLib LinearRegressionWithSGD 会产生错误的截距和权重实际使用的数据是 x1 x2 y 1 0 1 6 3 2 0 2 8 6 3 0 3 1
通过 Phonegap 连接到 HTTP 服务器

我有一个服务器组件它通过 HTTP 连接到远程服务器并获得一些响应如果我使用 Android 版 Phonegap 我可以连接到 java 插件中的此类服务器端代码吗您可以使用 javascript 的 xmlHttpRequest
如何在 C# 中异步读取结束进程输出？

我在 C 中异步读取一个进程的输出时遇到问题我在这个网站上发现了一些其他类似的问题但它们并没有真正帮助我这是我所做的制定新流程设置启动信息文件名参数 CreateNoWindow true UseShellExecute fa
Spark 中的默认分区方案

当我执行以下命令时 scala gt val rdd sc parallelize List 1 2 3 4 3 6 4 partitionBy new HashPartitioner 10 persist rdd org apache s
如何在 SQL Server 中使用 RANK()

我使用时遇到问题RANK https msdn microsoft com en us library ms176102 aspx在 SQL Server 中这是我的代码 SELECT contendernum totals RANK O
使用 Json.format 没有可用的 MyClass 隐式格式

在 Json format 上使用复杂对象作为另一个对象的属性时出现错误我有两节课 RoleDTO and 电子邮件邀请DTO 电子邮件邀请DTO has a RoleDTO 所以我宣布 case class RoleDTO id Op
Java正则表达式匹配除

匹配除特定字符之外的所有字符的正确语法是什么例如我想匹配除字母之外的所有内容 A Z a z 和数字 0 9 I have string matches A Z a z 0 9 这是不正确的吗是的你不需要嵌套像那样使用这个代替 A
根据情况启动docker容器

Problem 我有一个包含 6 个服务的 docker compose yml 当我执行 docker compose up 时所有 6 个容器都会启动但我需要 2 个容器来最初开始工作并根据条件休息 4 个容器描述组合中的 6
OpenCL 矩阵乘法应该更快？

我正在尝试学习如何使 GPU 优化 OpenCL 内核我以使用本地内存中的方形图块进行矩阵乘法为例然而在最好的情况下我只得到了约 10 倍的加速约 50 Gflops 与 numpy dot 相比 5 Gflops 它使用的是 BL

OpenCL 矩阵乘法应该更快？

OpenCL 矩阵乘法应该更快？ 的相关文章

随机推荐

热门标签

OpenCL 矩阵乘法应该更快？的相关文章