哪些大小是普通加载并存储到 CUDA 原子中的全局内存？

2023-12-14

如果满足以下条件，则 CUDA 中对全局内存的一般读取和写入是原子的：

它是一个4字节指令？（我认为是的）
它是8字节还是16字节指令？（我认为是的）

至少在开普勒和费米通用 4 字节读取和写入全局存储器原子上 Warp 级别或 8/16 字节指令原子在半/四分之一 Warp 级别，如果：

所有 warp 线程都访问同一个 32 字节 L2 事务块？（我认为是的）
Warp 线程访问不同的 32 字节 L2 事务块，但所有 Warp 线程访问相同的 128 字节 L2 缓存行？（我假设没有）
所有 warp 线程都访问不同的 L2 缓存线？（我假设没有）

如果关于扭曲级别原子性的任何假设是正确的，那么是否有任何方法可以利用这些知识而不冒与未来计算能力的兼容性的风险？

读取和写入通常针对缓存进行。当事务发送到全局内存时，CUDA 编程或内存模型中无法保证原子性，除非atomic使用说明。

例如，假设线程块中的线程更新了 Kepler 上 L2 中的 4 字节数量。现在，另一个线程，在另一个扭曲，线程块中，或内核在该缓存行被逐出到全局内存之前，可以在 L2 中仅更新这 4 个字节之一。当缓存行被逐出到全局内存时，它可能不代表原始线程甚至第二个线程写入的内容（例如，如果出现第三次写入......）。

请记住，L2 是回写式缓存，无法禁用，并且不会被全局读取和写入绕过，除非出现以下情况：atomic指示。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

atomic

哪些大小是普通加载并存储到 CUDA 原子中的全局内存？的相关文章

为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
Golang调用CUDA库

我正在尝试从 Go 代码中调用 CUDA 函数我有以下三个文件 test h int test add void test cu global void add int a int b int c c a b int test add v
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
使用 QuasirandomGenerator （对于傻瓜来说）

我是 CUDA 的新手我正在努力在内核中生成随机数我知道有不同的实现而且在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例我不知道从哪里开始我有点悲伤感觉自己像个傻瓜有人可以制作一个使用 Nied
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
为什么在这种无竞争的情况下原子比锁慢得多？

我使用原子而不是锁编写了一些东西并且对它在我的情况下慢得多感到困惑我编写了以下小型测试 include
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
领域驱动设计：处理原子操作和事务

必须保证每个聚合内部的一致性在存储库中执行此操作很容易因为我始终可以使用数据库或框架中的事务我对存储库之外发生的事情表示怀疑一项服务可能需要使用多个聚合来处理请求在服务处理过程中或在保留聚合时可能会出现问题如果服务处理过程中出现
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I

随机推荐

R 中的分层对数秩检验用于计算流程表单数据？

背景在 4 年的半年随访时间中患者可能会切换到不同的药物组为了解决这个问题我将生存数据转换为计数过程形式我想比较药物组 A B 和 C 的生存曲线我正在使用扩展的 Cox 模型但想要对每个风险函数进行成对比较或进行分层对数秩检
在 R 中为 xml2::xml_text() 设置 XML_PARSE_HUGE 选项

我读过这个问题在 R 中解析 XML 文件 gt 1 MB 这个答案似乎只适用于原来的XMLR 中的包如何设置此选项xml2 这是我正在运行的代码 library xml2 library magrittr rawXML lt read
我需要为特定的用户代理编写一个网络爬虫

我需要编写一个网络爬虫并且希望能够使用已知的用户代理进行爬网例如我希望我的爬虫充当iphone来爬取某个网站的移动站点然后使用Mozilla PC代理再次爬取等等这样我就能够抓取每种类型的网站移动和 PC 但是我还希望
C#中有“之间”函数吗？

谷歌不明白 Between 是我正在寻找的函数的名称并且没有返回任何相关内容例如我想仅通过一次操作检查 5 是否在 0 到 10 之间目前尚不清楚一次操作是什么意思但是不我知道没有运算符框架方法来确定某个项目是否在范围内
equals 方法适用于对象吗？如果是这样，怎么办？

我有一个动物园程序动物园里有爬行动物的分支动物亚群当我执行 equals 方法时主程序将编译并运行我很困惑如果我比较对象而不是专门比较 int 或 String java 如何知道使用 equals 方法 public class
在Android中启动Activity清除顶部

我的堆栈中有以下活动 A B C D 我想重新启动 B 以获得此堆栈 A B 其中 B 是一个新的 B 实例不是接收 onNewIntent 回调的旧实例我该怎么做顺便说一句我正在使用 intent setFlags Intent
某些项目无法导入，因为它们已存在于 Eclipse 中的工作区错误

我正在尝试导入我和我的同事一直在处理的项目并在选择导入然后导入现有项目然后单击存档文件然后单击下一步后不断收到此错误出现这个错误有些项目无法导入因为它们已经存在于工作区取消选中将项目复制到工作区复选框然后单击刷
PresentModalViewController:animated 上的不同转换：

我提出了一个模态视图控制器它是一个标签栏控制器里面有一个导航控制器问题是我的第一个视图有黑色背景我希望新视图有白色背景这意味着我要么必须拥有具有透明背景的模态视图控制器直到其显示白色背景时完成向上滑动动画要么我必须将导航控
C# 中#region 和#endregion 有什么用？

给我一个例子如果我使用或不使用这个块我可以实现什么目标起始区域后面的名称有什么用 region MyClass definition Some code endregion 没有技术理由使用 Region 它唯一做的就是提供一种折
Java SGML 到 XML 的转换？

有谁知道将 SGML 转换为 XML 的方法或库编辑为了澄清我必须在 Java 中进行转换并且我不能使用 SP 解析器或相关的 SX 工具似乎普遍的共识是没有现有的库可以在 Java 中执行 SGML 工作当然经过几天毫无结
为什么我们不能在 setTimeout 上调用并应用？

为什么我们不能调用并应用 setTimeout var obj window setTimeout call obj callback delay it throws error stating illegal invocation 使用起
致命：此操作必须在工作树中运行[重复]

这个问题在这里已经有答案了当我尝试更改分支时出现此错误也许我会在以下位置提供一些命令信息 path to git repo 根据命令 git branch 我得到以下输出 V1 5 V2 0 master 当我尝试命令时 git che
PHP自动下载文件而不提示保存或打开文件

我有一个函数用于从非公共目录下载文件下载部分工作正常只是它之前没有提示用户并允许用户选择位置或只是简单的打开我使用以下代码 file L APP BILAGOR GET f finfo new finfo FILEINFO MIME
如何从命令行覆盖 `project.build.finalName` Maven 属性？

我有以下由 Maven 3 0 4 运行的普通 pom
当使用 JSch 通过 Java 执行时，即使启用了 setPty，某些 Unix 命令也会失败并显示“...未找到”

我正在创建一个 Android 应用程序它将命令发送到设备上的 Linux 终端使用 ls 命令时我能够获得正确的输出但是当我使用 ifconfig 或 iwconfig 时设备不会给我任何输出使用 Tera Term 我已经验证这
LINQ：动态选择

考虑我们有这个类 public class Data public string Field1 get set public string Field2 get set public string Field3 get set public
XML 序列化错误 - 类型“ItemsChoiceType[]”的选择标识符“ItemsElementName”值无效或缺失

我正在尝试序列化要传递给 Web 服务的对象并收到上述错误我可以在调试时看到该值存在于对象本身中但它似乎没有发现这一点 string tradeAreas new string Area1 Area2 Area3 Area4 Retri
Bash -eq 和 ==，有什么区别？

为什么这有效 Output tail lines 1 fileDiProva INFO Output OK if Output OK then echo OK else echo No Match fi 这不是吗 Output tail l
克服不同端口的最大持续连接数？

继从浏览器中的最大并行 http 连接数浏览器每个主机只能有几个连接我知道可以使用子域来解决这个问题但是我可以通过对同一主机使用不同的端口来解决这个问题吗那么以下内容是否允许浏览器将其连接增加三倍假设每个端口上都有某些东西正在侦听
哪些大小是普通加载并存储到 CUDA 原子中的全局内存？

如果满足以下条件则 CUDA 中对全局内存的一般读取和写入是原子的它是一个4字节指令我认为是的它是8字节还是16字节指令我认为是的至少在开普勒和费米通用 4 字节读取和写入全局存储器原子上 Warp 级别或 8 16 字节指令原

哪些大小是普通加载并存储到 CUDA 原子中的全局内存？

哪些大小是普通加载并存储到 CUDA 原子中的全局内存？ 的相关文章

随机推荐

热门标签

哪些大小是普通加载并存储到 CUDA 原子中的全局内存？的相关文章