CUDA全局内存事务的成本

2024-03-31

根据 CUDA 5.0 编程指南，如果我同时使用 L1 和 L2 缓存（在 Fermi 或 Kepler 上），则所有全局内存操作都使用 128 字节内存事务完成。但是，如果我仅使用 L2，则使用 32 字节内存事务（第 F.4.2 章）。

让我们假设所有缓存都是空的。如果我有一个扭曲，每个线程以完美对齐的方式访问单个 4 字节字，这将导致在 L1+L2 情况下产生 1x128B 事务，在仅 L2 情况下产生 4x32B 事务。是对的吗？

我的问题是 - 4 个 32B 事务是否比单个 128B 事务慢？我对费米之前硬件的直觉表明它会更慢，但也许在较新的硬件上情况不再如此？或者也许我应该只看带宽利用率来判断内存访问的效率？

是的，在缓存模式下，将生成单个 128 字节事务（从 L1 缓存级别可见）。在非缓存模式下，将生成四个 32 字节事务（从 L2 缓存级别可见 - 它仍然是来自来自）在您描述的情况下，对于完全合并的访问，无论缓存或非缓存模式如何，四个 32 字节事务都不会变慢。在任何一种情况下，内存控制器（在给定的 GPU 上）都应该生成相同的事务来满足 warp 的请求。由于内存控制器由多个（最多 6 个）“分区”组成，每个分区都有 64 位宽的路径，因此最终将使用多个内存事务（可能跨越多个分区）来满足请求（4x32 字节或1x128 字节）。跨分区的具体事务数量和组织可能因 GPU 而异（这不是您的问题的一部分，但具有 DDR 泵送内存的 GPU 将为每个内存事务返回每个分区 16 字节，而使用 QDR 泵送内存时，每个内存事务将返回每个分区 32 字节）。这也不是 CUDA 5 特有的。您可能想回顾一下 NVIDIA 的产品之一webinars http://developer.nvidia.com/cuda/gpu-computing-webinars对于此材料，特别是“CUDA 优化：内存带宽有限内核”。即使你不想看video http://developer.download.nvidia.com/CUDA/training/Optimizing_Mem_limited_kernels.mp4，快速回顾一下slides http://developer.download.nvidia.com/CUDA/training/bandwidthlimitedkernels_webinar.pdf会提醒您所谓的“缓存”和“非缓存”访问（这是指 L1）之间的各种差异，并且还会为您提供尝试每种情况所需的编译器开关。

查看幻灯片的另一个原因是它会提醒您在什么情况下可能想要尝试“未缓存”模式。特别是，如果您的 warp 具有分散（未合并）的访问模式，则非缓存模式访问可能会带来改进，因为与 128 字节相比，从内存请求 32 字节数量以满足单个线程的请求时“浪费”更少数量。然而，针对您的最后一个问题，对其进行分析相当困难，因为您的代码可能是有序和无序访问模式的混合。由于非缓存模式是通过编译器开关打开的，因此幻灯片中给出的建议只是“尝试两种方式的代码”，看看哪种运行速度更快。根据我的经验，在非缓存模式下运行很少会带来性能改进。

编辑：抱歉，我的演示文稿链接和标题错误。修复了幻灯片/视频链接和网络研讨会标题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA全局内存事务的成本的相关文章

在 Windows 上的 Qt Creator 中编译 Cuda 代码

几天来我一直在尝试获取在 32 位 Windows 7 系统上运行的 Qt 项目文件我希望需要在其中包含 Cuda 代码这种组合要么非常简单以至于没有人愿意在网上放一个例子要么非常困难似乎没有人成功不管怎样我发现的唯一有用的
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5

随机推荐

Firebird 中的表可以重命名吗？

是否可以在 Firebird 中重命名表或者我应该创建一个新表然后使用插入移动数据显然不是您必须创建一个新表复制旧值或者创建一个具有与原始表相同的预期名称的视图 See http www firebirdfaq org faq3
Spring Integration - 入站文件端点。如何正确处理文件。

我有一个 Spring 集成流程如下
更改浮动操作按钮的形状

我想在我的布局中添加一个浮动操作按钮想问一下如何自定义浮动操作按钮的形状并将其更改为您自己的图标如果您想更改形状那么您可能必须使用自定义形状可能是矩形或正方形创建自己的 FAB 实现要更改图标您只需使用android src
Android java.lang.SecurityException on Settings.Secure.putString()

我正在尝试在 Android 2 2 中设置系统属性使用Android for eclipse插件导致异常的行是 Settings Secure putString getContentResolver Settings Secure
我们可以在android NDK代码中使用系统IPC吗

在这里我想使用系统 IPC 方法例如
在 Eclipse 中调试 Android Widget 代码

我在 Android 编程的帮助下开始解锁 Android 曼宁 http www manning com ableson 这是一本来自圣诞老人的好书在运行了一些小测试和示例之后我开始为我自己的应用程序开发概念我希望我的应用程序作为家
WebStorm 可以在我编写代码时自动格式化代码吗？

在 Visual Studio 中当我输入一些特殊字符如时它会自动格式化相关代码段但在 WS 中什么也没有发生我试图找到这个选项但最终没有结果 e g In VS if we type something like var
为 PostgreSQL 8.3 安装 PL/Ruby

这是为了能够发展postgres具有嵌入式功能ruby代码但我一直无法建造它据建议http www robbyonrails com articles 2005 08 22 installing untrusted pl ruby fo
三元赋值的“写出”等价物是什么？

我有一个结构是不可默认构造我想根据条件为该结构的对象分配不同的值由于该结构是非默认构造的因此不可能声明它的统一对象但是可以使用三元来做到这一点 struct foo foo int a foo generateFoo1 retur
Swift 中的抽象类和抽象函数[重复]

这个问题在这里已经有答案了我来自 Java 现在我想在 Swift 中创建抽象类我有这门课Java 我想做同样的事情Swift如果可能的话 abstract class Fetcher private Item items public
调用 android.speech.RecognizerIntent API 会导致连接错误对话框，并在日志中显示“calling_package”警告

我编写了一个小应用程序允许用户通过按钮选择使用语音搜索的语言而不是依赖用户的语言偏好有时您希望用日语进行语音搜索而不将整个 UI 切换为日语我正在我的 HTC Desire Android 2 1 Softbank x06ht 上
GItlab：有什么方法可以选择变量值作为下拉菜单

在 Gitlab ci 中我们声明了变量如下所示 USER NAME value description Enter Username File Name description Enter the file name 它只提供一个文本
删除字符的正确方法是什么**

我有一个 char 基本上是一个字符串数组我需要删除它确保清除所有指针的正确方法是什么经验法则是你需要一个delete or delete 对于每个new or new 您发出的所以如果你这样做 char pp new char N
未找到与 Doctrine2 多态关联的字段

我有一个多态关联类表继承我需要使用 DQL 来查询特定子类的实体可以在 WHERE 子句中使用 x INSTANCE OF Entity 来完成现在我需要为该子类设置特定的条件但我收到此错误类 Person 没有名为 Stude
Nextjs 和 Jest 变换/transformIgnorePatterns 不适用于 esm 模块

我对此进行了大量研究并找到了相当多的解决方案我找到了一种解决方法并希望获得transform and transformIgnorePatterns在职的然而我唯一能做的似乎就是在我的内部手动添加一些模拟模块 mocks fold
如何更改 Android 选项卡小部件的背景？

我的类扩展了 TabActivity TabHost mTabHost getTabHost TabHost TabSpec tab1 mTabHost newTabSpec tab1 TabHost TabSpec tab2 mTabHo
使用 Fluent Api 时复合键 EF Core 出现错误

所以我在 Entity Framework Core 中有以下类我正在尝试进行代码优先迁移但我一生都无法弄清楚如何为这项工作提供流畅的 API public class Participants public Activity Acti
通过网络扫描发现服务器IP地址

我要开发 C 客户端服务器应用程序我需要告诉客户端服务器的 IP 地址是什么它可能来自客户端或服务器广播任何关于这方面的帮助和解决方案都会非常有用如果有一些示例代码那就更好了 Thanks 您可以使用BroadCast方法进行广播
将枚举案例的关联值提取到元组中

我知道如何使用 switch 语句提取枚举案例中的关联值 enum Barcode case upc Int Int Int Int case quCode String var productBarcode Barcode upc 8 1
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我

CUDA全局内存事务的成本

CUDA全局内存事务的成本 的相关文章

随机推荐

热门标签

CUDA全局内存事务的成本的相关文章