在 CUDA 中，什么是内存合并，它是如何实现的？

2023-12-02

CUDA 全局内存事务中的“合并”是什么？即使读完我的 CUDA 指南后我还是无法理解。怎么做？在CUDA编程指南矩阵示例中，逐行访问矩阵称为“合并”，或者逐列访问矩阵称为合并？哪一个是正确的，为什么？

此信息可能仅适用于计算能力 1.x 或 cuda 2.0。更新的架构和 cuda 3.0 具有更复杂的全局内存访问，事实上，甚至没有为这些芯片分析“合并的全局负载”。

此外，该逻辑可以应用于共享内存以避免存储体冲突。

合并内存事务是一种半扭曲中的所有线程同时访问全局内存的事务。这太简单了，但正确的方法是让连续的线程访问连续的内存地址。

因此，如果线程 0、1、2 和 3 读取全局内存 0x0、0x4、0x8 和 0xc，则它应该是合并读取。

在矩阵示例中，请记住您希望矩阵线性驻留在内存中。您可以按照自己的意愿执行此操作，并且您的内存访问应该反映矩阵的布局方式。所以，下面的 3x4 矩阵

0 1 2 3
4 5 6 7
8 9 a b

可以像这样一行一行地完成，以便 (r,c) 映射到内存 (r*4 + c)

0 1 2 3 4 5 6 7 8 9 a b

假设您需要访问一次元素，并假设您有四个线程。哪些线程将用于哪些元素？可能是

thread 0:  0, 1, 2
thread 1:  3, 4, 5
thread 2:  6, 7, 8
thread 3:  9, a, b

thread 0:  0, 4, 8
thread 1:  1, 5, 9
thread 2:  2, 6, a
thread 3:  3, 7, b

哪个更好？哪个会导致合并读取，哪个不会？

无论哪种方式，每个线程都会进行三次访问。我们先看第一次访问，看看线程是否连续访问内存。在第一个选项中，第一次访问是0、3、6、9。不连续，不合并。第二个选项，是0、1、2、3。连续！合体了！耶！

最好的方法可能是编写内核，然后对其进行分析以查看是否有非合并的全局加载和存储。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

Definition

memoryaccess

在 CUDA 中，什么是内存合并，它是如何实现的？的相关文章

cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
使用 QuasirandomGenerator （对于傻瓜来说）

我是 CUDA 的新手我正在努力在内核中生成随机数我知道有不同的实现而且在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例我不知道从哪里开始我有点悲伤感觉自己像个傻瓜有人可以制作一个使用 Nied
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
使用 cmake add_definitions 的文件路径

我正在尝试替换硬编码预处理器 define MY FILE PATH usr local myfile 在 cmake 中使用 add definitions add definitions DMY FILE PATH MY FILE PA
如何显示 zsh 函数定义（如 bash“type myfunc”）？

如何在 zsh 中显示函数的定义 type foo没有给出定义在bash中 bash function foo echo hello bash foo hello bash type foo foo is a function foo e
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题

随机推荐

复制句柄类的 MATLAB 对象

我在 MATLAB 中实现了一个句柄类并尝试通过调用以下两个函数来复制该类的对象 objByteArray getByteStreamFromArray obj newObj getArrayFromByteStream objByteA
3D 中的 Numpy 网格

Numpy 的网格网格对于将两个向量转换为坐标网格非常有用将其扩展到三维空间的最简单方法是什么因此给定三个向量 x y 和 z 构造可用作坐标的 3x3D 数组而不是 2x2D 数组 Numpy 我认为从 1 8 开始现在支持高于
找到噪声图像边缘的最佳方法

我有一个噪声图像如下图所示假设它是高斯噪声目前我使用两个步骤来寻找边缘使用高斯滤波器 G 平滑图像根据方程找到边缘 g 1 1 I G 2 其中 G 是高斯滤波器是控制噪声水平的权重然而高斯滤波器是图像边缘丢失的原因我想
带参数的 Prolog DCG

我不知道如何使用参数来处理 DCG 假设我们想用 DCG 来代表父母和他们的孩子那么我们可以说 father gt Peter mother gt Isabel child gt Guido child gt Claudia verb g
从 JTextPane 中的任何偏移量获取样式

有没有办法得到Style 样式名称或者只是比较是否Style在某个位置JTextPane与我在插入时给文本的样式因为为了我的目的我创建了自定义JTextPane StyledDocument and DocumentFilter 所以我
将输入字符串转换为 float/double C++

所以我知道如何在 C 中执行此操作但不知道如何在 C 中执行此操作我正在尝试将给定用户输入解析为双精度以便稍后进行数学运算但我是 C 新手并且遇到了麻烦帮助 C public static class parse public
gmail api 给出 failedPrecondition 错误

我无法让 gmail api 工作我正在使用 JWT 进行服务器到服务器身份验证 google api python client 1 4 0 httplib2 0 9 oauth2client 1 4 7 pycrypto 2 6 1
如何设置“discrete_distribution”向量 C++

我正在尝试模拟马尔可夫链之类的东西并使用discrete distribution来模拟状态s i到s j的变化但当然这是一个矩阵而不是向量所以我尝试一下 std vector
gcc，内联汇编 - Pushad/popad 丢失？

有什么方法可以避免复制粘贴pushad popad指令体到我的代码中因为 gcc 当前标志 Wall m32 抱怨说 asm pushad 错误没有这样的指令 pushad asm popad 错误没有这样的指令 popad GCC
如何在自定义 JsonConverter 中使用默认序列化

我有一个复杂的对象图我正在使用 Json NET 对其进行序列化反序列化一些对象派生自抽象类因此为了使反序列化正常工作我需要创建一个自定义JsonConverter 它的唯一作用是在反序列化时选择抽象类的适当具体实现并允许 Js
如何修复：异步方法的返回类型必须为 void、Task 或 Task [AppName]

我正在使用 VS Code 并遵循 ASP NET Core EF Core 教程并承认我不太清楚 async await 和 Task 是如何工作的嗯我知道前两个但不知道第三个我第一次实现一个存储库以及与之配套的 Unitof
IP地址？ - 可可

我如何制作一个 GUI 程序只需单击一个按钮即可显示您的 IP 地址拜托没有什么困难的解释我不久前刚刚开始使用 Cocoa Thanks Kevin 您可以通过两种方式获取IP地址 1 如果您想获取当前使用网络上的本地ip地址可以
为什么顶层显示 2 个窗口？

我正在尝试制作一个 tkinter 应用程序当第一个窗口根关闭时它不会关闭所有内容其他窗口我尝试过使用Toplevel 它非常适合其他程序中的弹出窗口但不适用于制作基础级别 from tkinter import top To
尝试使用模板创建类的新实例，出现意外错误

试图做一个B inary S earch Tree 简称BST 使用模板当我尝试创建 BST 的新实例时出现意外错误我希望解决方案不涉及指针因为我想将它们保持在最低限度现在我有 template
Spring Boot StackOverFlowError：空

当我想通过 foreach 循环保存存储库时遇到问题通过 Foreach 循环用户来并将其保存到另一个实体用户类公开课出勤率 Id GeneratedValue strategy GenerationType AUTO private
如何为svg提供响应式设计？

我是拉斐尔的新手我在div里面写了svg标签请参阅此示例http jsfiddle net dhana36 bvs6P 1 使用 CTRL 和 CTRL 你会发现区别 HTML div class outer div
递归思维的算法是什么？（就具体例子而言）

我就是无法理解递归我理解所有概念将解决方案分解为更小的案例并且在一遍又一遍地阅读它们后我可以理解解决方案但我始终无法弄清楚如何使用递归来解决问题有没有系统的方法来提出递归解决方案有人可以向我解释一下他们尝试解决以下递归问题时的思
Android - 动态添加视图到视图中

我有一个视图布局
INNO设置：如何获取主显示器的分辨率？

我正在尝试使用 INNO 编写安装程序脚本但我陷入了困境我需要获取运行安装程序的计算机的屏幕分辨率并使用该值在桌面上创建一个以该分辨率为一的快捷方式的论点我知道如何创建快捷方式但是我不知道如何提取屏幕分辨率以及如何传递该信息可能
在 CUDA 中，什么是内存合并，它是如何实现的？

CUDA 全局内存事务中的合并是什么即使读完我的 CUDA 指南后我还是无法理解怎么做在CUDA编程指南矩阵示例中逐行访问矩阵称为合并或者逐列访问矩阵称为合并哪一个是正确的为什么此信息可能仅适用于计算能力 1 x 或

在 CUDA 中，什么是内存合并，它是如何实现的？

在 CUDA 中，什么是内存合并，它是如何实现的？ 的相关文章

随机推荐

热门标签

在 CUDA 中，什么是内存合并，它是如何实现的？的相关文章