合理化我的简单 OpenCL 内核中有关全局内存的情况

2024-03-04

const char programSource[] =
        "__kernel void vecAdd(__global int *a, __global int *b, __global int *c)"
        "{"
        "    int gid = get_global_id(0);"
        "for(int i=0; i<10; i++){"
        "    a[gid] = b[gid] + c[gid];}"
        "}";

上面的内核是每个循环执行十次的向量加法。我已经使用编程指南和堆栈溢出来弄清楚全局内存是如何工作的，但我仍然无法通过查看我的代码来弄清楚我是否以良好的方式访问全局内存。我以连续的方式访问它，并且以一致的方式猜测。该卡是否为数组 a、b 和 c 加载 128kb 全局内存块？然后，它是否会在每处理 32 个 gid 索引时为每个数组加载一次 128kb 块？ (4*32=128) 看来我没有浪费任何全局内存带宽，对吗？

顺便说一句，计算分析器显示 gld 和 gst 效率为 1.00003，这看起来很奇怪，我认为如果我所有的存储和负载都合并起来，它只会是 1.0。 1.0以上怎么样？

是的，您的内存访问模式几乎是最佳的。每个 halfwarp 访问 16 个连续的 32 位字。此外，访问是 64 字节对齐的，因为缓冲区本身是对齐的，并且每个 halfwarp 的起始索引是 16 的倍数。因此每个 halfwarp 将生成一个 64 字节事务。因此，您不应该通过未合并的访问来浪费内存带宽。

既然您在上一个问题中要求提供示例，那么让我们修改此代码以用于其他（不太理想的访问模式（因为循环实际上没有做任何事情，我将忽略它）：

kernel void vecAdd(global int* a, global int* b, global int* c)
{
   int gid = get_global_id(0);
   a[gid+1] = b[gid * 2] + c[gid * 32];
}

首先让我们看看它在计算 1.3 (GT200) 硬件上的工作原理

对于对 a 的写入，这将生成稍微不太理想的模式（遵循由其 id 范围和相应的访问模式标识的 halfwarp）：

   gid  | addr. offset | accesses     | reasoning
  0- 15 |     4- 67    | 1x128B       | in aligned 128byte block
 16- 31 |    68-131    | 1x64B, 1x32B | crosses 128B boundary, so no 128B access
 32- 47 |   132-195    | 1x128B       | in aligned 128byte block
 48- 63 |   196-256    | 1x64B, 1x32B | crosses 128B boundary, so no 128B access

所以基本上我们浪费了大约一半的带宽（奇数 halfwarp 的访问宽度加倍并没有多大帮助，因为它会生成更多的访问，可以说这并不比浪费更多字节更快）。

对于从 b 读取，线程仅访问数组的偶数元素，因此对于每个 halfwarp，所有访问都位于 128 字节对齐的块中（第一个元素位于 128B 边界，因为对于该元素，gid 是 16 的倍数=>索引是32的倍数，对于4字节元素，这意味着地址偏移量是128B的倍数）。访问模式延伸到整个 128B 块，因此这将为每个 halfwarp 执行 128B 传输，再次减少一半的带宽。

从 c 中读取会产生最坏的情况之一，其中每个线程都在自己的 128B 块中索引，因此每个线程都需要自己的传输，一方面有点序列化场景（尽管不像正常情况那么糟糕，因为硬件应该能够重叠传输）。更糟糕的是，这将为每个线程传输 32B 块，浪费 7/8 的带宽（我们访问 4B/线程，32B/4B=8，因此只利用了 1/8 的带宽）。由于这是朴素矩阵转置的访问模式，因此强烈建议使用本地内存进行这些访问模式（根据经验）。

计算 1.0 (G80)

这里唯一能够创建良好访问的模式是原始模式，示例中的所有模式都将创建完全未合并的访问，浪费 7/8 的带宽（32B 传输/线程，见上文）。对于 G80 硬件，halfwarp 中第 n 个线程不访问第 n 个元素的每次访问都会创建此类未合并的访问

计算 2.0（费米）

在这里，每次对内存的访问都会创建 128B 事务（收集所有数据所需的数量，因此在最坏的情况下为 16x128B），但是这些事务被缓存，使得数据将传输到何处不太明显。目前我们假设缓存足够大，可以容纳所有数据并且不存在冲突，因此每个 128B 缓存行最多会传输一次。让我们进一步假设 halfwarp 是串行执行的，因此我们有确定性的缓存占用。

对 b 的访问仍将始终传输 128B 块（相应内存区域中没有其他线程索引）。对 c 的访问将为每个线程生成 128B 传输（可能是最差的访问模式）。

对于 a 的访问如下（暂时将它们视为读取）：

   gid  | offset  | accesses | reasoning
  0- 15 |   4- 67 |  1x128B  | bringing 128B block to cache
 16- 31 |  68-131 |  1x128B  | offsets 68-127 already in cache, bring 128B for 128-131 to cache
 32- 47 | 132-195 |    -     | block already in cache from  last halfwarp
 48- 63 | 196-259 |  1x128B  | offsets 196-255 already in cache, bringing in 256-383

所以对于大型数组来说，理论上a的访问几乎不会浪费带宽。对于这个例子来说，现实当然没有那么好，因为对 c 的访问会很好地破坏缓存

对于探查器，我假设超过 1.0 的效率只是浮点不准确的结果。

希望有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

合理化我的简单 OpenCL 内核中有关全局内存的情况的相关文章

我如何解释 meminfo 中的所有内存？

我试图理解如何meminfo跟踪记忆这是我正在看的内容 MemTotal 341596 kB MemFree 147288 kB Buffers 56 kB Cached 46752 kB SwapCached 0 kB Active 8
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
获取DLL函数的内存地址

我想知道是否有可能使用 C 和 WindowsAPI 是否有一个函数可以让我获得 dll 中函数的 32 位我认为内存地址例如如何获取 kernel32 dll 中 Beep 的 32 位 xxxxxxxx 地址其次如果我在汇
如何快速将6字节无符号整数复制到内存区域？

我需要将 6 字节整数值复制到内存区域中从其开头开始并尽可能快地复制如果硬件支持这样的操作我想使用它我现在使用的是 x64 处理器编译器是 GCC 4 6 3 The memset不适合这项工作因为它只能复制字节这std fi
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
阿克曼函数的这种实现可以称为尾递归吗？

我用 C 语言编写了以下代码我们可以将其称为尾递归实现吗 include
C# 位图/图形内存不足

我正在尝试拍摄整个屏幕的快照以读取像素值事实上我这样做没有任何问题但在 214 个快照之后我出现了内存不足的异常 Bitmap ScreenShot new Bitmap Screen PrimaryScreen Bounds Wid
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
在 OpenCL 内核中使用 _ 常量限定符

我在使用时遇到问题持续的我的 OpenCL 内核中的限定符我的平台是雪豹我尝试在 GPU 上初始化 CL 只读内存对象将常量数组从主机复制到其中然后我设置内核参数就像 global内存参数但这不起作用但我没有看到任何错误或警告
字符串文字：它们去了哪里？

我对字符串文字的分配存储位置感兴趣我确实找到了一个有趣的答案here https stackoverflow com questions 51592 is there a need to destroy char string or c
C#：模拟内存泄漏

我想用c 编写以下代码 a 模拟内存泄漏的小型控制台应用程序 b 小型控制台应用程序它将调用上述应用程序并立即释放它模拟管理内存泄漏问题换句话说应用程序 b 将不断调用并释放应用程序 a 以模拟如何遏制叛逆内存泄漏应用程序而不
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
访问单个结构体成员是否会将整个结构体拉入缓存？

我一直在读乌尔里希德雷珀的书每个程序员都应该了解的内存知识 http lwn net Articles 250967 并在部分3 3 2 缓存效果的测量 http lwn net Articles 252125 页面中间它给我的印象是
在 Mac OS X 10.7.4 上使用 OpenCL 禁用 Nvidia 看门狗

我有一个 OpenCL 程序对于小问题运行良好但是当运行较大的问题超过 Nvidia 硬件上运行内核的 8 10 秒时间限制时虽然我没有将显示器连接到我正在计算的 GPU Nvidia GTX580 上但一旦内核运行大约 8 10
printf() var-arg 引用如何与堆栈内存布局交互？

给出代码片段 int main printf Val d 5 return 0 是否有任何保证编译器会存储 Val d and 5 连续地例如 d l a V 5 Format String
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
查找 Java 中的内存使用情况

以下是我需要解决的场景我想出了两种解决方案我需要维护从数据库获取的数据的缓存以便在 Swing GUI 上显示每当我的 JVM 内存超过其分配内存的 70 时我需要警告用户有关过度使用的情况一旦 JVM 内存使用率超过 80 那
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了

随机推荐

C语言中的二维数组如何变成一维数组？

如果有人可以向我解释以下行为我将不胜感激假设我声明一个静态二维数组 float buffer NX NY 现在如果我想填充这个数组我注意到可以这样做 initarray buffer NX NY define INITDATAVAL
没有 Redux 的情况下组合Reducer

我有一个没有 redux 的应用程序我使用钩子和钩子 useReducer context 处理全局状态我有 1 个 useReducer 它就像一个 Redux 商店但要做到这一点我只能发送 1 个减速器在该减速器中我拥有所有状
根据数组中的另一个 id 仅对多数组中的第一项进行排序 (PHP)

我不知道该怎么做请参阅下面我的数组我在 while 循环中运行这个数组需要先找到 attach id 对于每个 topic id 并可以使用 topic id在循环中设置的正确的输出将是第一个循环 attach id gt 179
神经网络在一个纪元后趋于平坦

我正在使用 keras 创建一个卷积神经网络尝试将图像分类为两个不同的类并且出于某种原因在第一个纪元之后准确性永远不会改变使用 Keras 后to categorical 我的标签看起来像 0 1 1 0 1 0 0 1 我的模型
Amazon SES SMTP Python 用法

我试图诊断为什么通过 Amazon SES 发送电子邮件无法通过 python 工作以下示例演示了该问题其中user and pass设置为适当的凭据 gt gt gt import smtplib gt gt gt s smtplib
System.Timers.Timer 与 System.Threading.Timer

我最近一直在检查一些可能的计时器并且System Threading Timer https learn microsoft com en us dotnet api system threading timer and System T
即使有标记，pytest-django 也不允许数据库访问

我很难找出我的设置出了什么问题我正在尝试测试登录视图无论我尝试什么我都会得到 Database access not allowed use the django db mark or the db or transactional
统一处理非托管 API 中的错误代码

我正在围绕一个相当大的非托管 API 编写一个包装器几乎每个导入的方法在失败时都会返回一个常见的错误代码现在我正在这样做 ErrorCode result Api Method if result ErrorCode SUCCESS
Playframework 与 CSRF：“会话中未找到 CSRF 令牌”？

我正在使用 Playframework 及其内置 CSRF 过滤器和 Security Authenticator 系统制作一个简单的身份验证系统但我遇到了一个问题当用户填写登录名密码并提交输入时出现以下错误在会话中找不到 CSR
如何更新 SQL 中游标获取的列

在进一步讨论之前是的我知道与基于集合的操作相比游标的性能很差在这种特殊情况下我在包含 100 条左右记录的临时表上运行游标并且该临时表始终相当小因此性能不如灵活性那么重要我的困难是我无法找到如何更新游标获取的列的示例以前
在 Git 中运行预提交挂钩。有没有办法验证脚本是否正在运行？

我想运行 Git 按照博客的建议我使用了 git init初始化存储库然后 git在 hooks 目录中存在钩子的位置创建文件夹然后按照我重命名的脚本的建议pre commit sample as pre commit它不起作用所以
如何在Qt中保存对话框的状态？

假设对话框中有复选框选项等控件如何在 Qt 中保存对话框的状态我应该使用 QSettings 还是其他东西 Thanks 我遇到了同样的问题谷歌搜索并没有太大帮助所以最后我写了自己的解决方案我创建了一组函数用于在创建和销毁时读
Keras：为什么损失函数必须为每个批次项返回一个标量，而不仅仅是一个标量？

我正在 Keras 中编写一个自定义损失函数但遇到了以下问题为什么 Keras 损失函数必须为每个批次项返回一个标量而不是仅返回一个标量我关心的是整批的累计损失而不是每件商品的损失不是吗我想我已经明白了 fit 有争论samp
更好地理解 C# 泛型

我查看了一些使用 C 泛型的示例代码为什么以及何时应该使用它们所有的例子都很复杂我需要一个简单清晰的示例来帮助我开始使用 C 泛型一个非常简单的例子是通用的List
使用 PHP 5.5 安装 xdebug

我读了很多答案但不明白为什么 xdebug 不起作用 php ini xdebug zend extension usr lib php5 20090626 xdebug so php v PHP 5 5 6 1 debphp org p
Docker 容器未开始给出“OCI 运行时创建失败”

我已经安装了Docker版本 https docs docker com release notes 17 12 0 ce 构建 c97c6d6当我尝试启动任何容器时出现以下错误 docker 来自守护进程的错误响应 OCI运行时创建失败
在像素着色器中计算世界空间坐标

我有一个像素着色器我想根据我的世界空间坐标计算每个像素的位置我该怎么做我需要什么我有一个ps input具有 float4 位置的结构 SV POSITION 我认为这很重要但存储在里面的值似乎有点有趣我似乎无法弄清楚它们有什么
Liferay 连接和压缩 javascript

我试图弄清楚如何实现所有 js 文件的压缩和缩小目前我将它们放在一个钩子插件中 html js mycustomjs folder 我知道liferay有自己的机制来压缩javascripts 在barebone jsp或 everyth
在 MacOSX 上，当指定无效的身份验证凭据时，QNetworkAccessManager 会进入无限循环

在我的跨平台应用程序中我使用 QNetworkAccessManager 将 HTTP 请求发送到需要身份验证的 HTTP 服务我最近升级到 QT5 令我完全惊讶的是在 MacOSX 上我的应用程序会在某些情况下尽快向我的服务发送大
合理化我的简单 OpenCL 内核中有关全局内存的情况

const char programSource kernel void vecAdd global int a global int b global int c int gid get global id 0 for int i 0 i

合理化我的简单 OpenCL 内核中有关全局内存的情况

合理化我的简单 OpenCL 内核中有关全局内存的情况 的相关文章

随机推荐

热门标签

合理化我的简单 OpenCL 内核中有关全局内存的情况的相关文章