GPU 上非原子写入的保证很弱吗？

2024-03-21

OpenCL 和 CUDA 包含原子操作已有好几年了（尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作）。但是 - 我的问题是关于由于非原子写入而“共存”种族的可能性。

假设网格中的多个线程都写入全局内存中的同一位置。我们是否可以保证，当内核执行结束时，这些写入之一的结果将出现在该位置，而不是一些垃圾？

此问题的相关参数（选择任意组合，edit除了 nVIDIA+CUDA 已经得到答案）：

内存空间：全局内存only;这个问题与本地/共享/私有内存无关。
对齐：在单个内存写入宽度内（例如 nVIDIA GPU 上的 128 位）
GPU 制造商：AMD/nVIDIA
编程框架：CUDA/OpenCL
存储指令在代码中的位置：所有线程的同一行代码/不同的代码行。
写入目的地：固定地址/距函数参数地址的固定偏移量/完全动态
写入宽度：8 / 32 / 64 位。

我们是否可以保证，当内核执行结束时，这些写入之一的结果将出现在该位置，而不是一些垃圾？

对于当前的 CUDA GPU，我非常确定对于采用 OpenCL 的 NVIDIA GPU，答案是肯定的。我下面的大部分术语都会考虑到 CUDA。如果您需要 CUDA 和 OpenCL 的详尽答案，请告诉我，我将删除此答案。与此非常相似的问题 https://stackoverflow.com/questions/22151070/cuda-non-atomic-write-clash-results/22151276#22151276无论如何，之前已经被问过并回答过。这是另一个 https://stackoverflow.com/questions/20775033/are-general-reads-and-writes-to-global-memory-atomic-in-cuda-if/20775278#20775278，而且我确信还有其他人。

当同一位置发生多个“同时”写入时，其中一个将完好无损地获胜。

哪一方会获胜尚无定论。非获胜写入的行为也是未定义的（它们可能发生，但被获胜者取代，或者它们可能根本不发生。）内存位置的实际内容可能会通过各种值（例如原始值）进行转换，加上任何有效的写入值），但传输不会传递“垃圾”值（即不存在且未由任何线程写入的值。）传输最终以“获胜者”结束。

示例1：

位置 X 包含零。线程 1、5、32、30000 和 450000 都向该位置写入 1。如果该位置没有其他写入流量，则该位置最终将包含值 1（在内核终止时或更早）。

示例2：

位置 X 包含 5。线程 32 将 1 写入 X。线程 90303 将 7 写入 X。线程 432322 将 972 写入 X。如果没有其他写入流量到该位置，则在内核终止时或更早，位置 X 将包含 1 、7 或 972。它不会包含任何其他值，包括 5。

我假设 X 位于全局内存中，并且到它的所有流量自然地与它对齐，并且到它的所有流量具有相同的大小，尽管这些原则也适用于共享内存。我还假设您没有违反 CUDA 编程原则，例如自然排列的交通 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#device-memory-accesses到设备内存位置。我在这里看到的事务是源自单个 SASS 指令（每个线程）的事务。此类事务的宽度可以为 1、2、4 或 8 字节。无论写入是源自“同一行代码”还是“不同行”，我在这里所做的声明都适用。

这些声明基于 PTX 内存一致性模型，因此“正确性”是由 GPU 硬件保证的，而不是由编译器、CUDA 编程模型或 CUDA 所基于的 C++ 标准来保证。

这是一个相当复杂的主题（特别是当我们考虑缓存行为，以及当我们将读取混合在一起时会发生什么），但是“垃圾”值应该never发生。全局内存中应该出现的唯一值是那些一开始就存在的值，或者是由某个线程在某处写入的那些值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GPU 上非原子写入的保证很弱吗？的相关文章

OpenCL 在调用 clGetPlatformIDs 时崩溃

我是 OpenCL 新手在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
空的 openCL 程序抛出弃用警告

我下载了 AMD APP 3 0 SDK 一旦包含 include
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
std::mutex 会创建栅栏吗？

如果我锁定一个std mutex我总会得到一个记忆栅栏吗我不确定这是否暗示或强迫你获得栅栏 Update 根据 RMF 的评论找到了这个参考资料多线程编程和内存可见性 http en wikipedia org wiki Memory
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
如何自动更新最大值？

在串行代码中更新最大值可以简单地通过以下方式完成 template
为什么在这种无竞争的情况下原子比锁慢得多？

我使用原子而不是锁编写了一些东西并且对它在我的情况下慢得多感到困惑我编写了以下小型测试 include
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
C++11内存_顺序_获取和内存_顺序_释放语义？

http en cppreference com w cpp atomic memory order http en cppreference com w cpp atomic memory order以及其他 C 11 在线参考将 me
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
在 Mac OS X 10.7.4 上使用 OpenCL 禁用 Nvidia 看门狗

我有一个 OpenCL 程序对于小问题运行良好但是当运行较大的问题超过 Nvidia 硬件上运行内核的 8 10 秒时间限制时虽然我没有将显示器连接到我正在计算的 GPU Nvidia GTX580 上但一旦内核运行大约 8 10
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可

随机推荐

与 React 一起使用时如何检测 keyPress 上的“Enter”键

我正在使用 ReactJs 来开发我的应用程序我试图通过处理 onKeyPress 事件在按下 Enter 时提交输入文本它检测其他输入但不输入我尝试过不同的方法 event key event charCode event key
Cassandra RandomPartitioner 版本 1.2.3

我使用 apt 在 debian 上安装 Cassandra 1 2 3 我之前使用的是 tarball 1 1 7 安装安装后我将 cassandra yaml 中的分区器从 Murmur3Partitioner 更改为 Random
Expo.FileSystem.downloadAsync 不显示下载通知

我正在使用世博会FileSystem下载 pdf 文件 API 响应进入 success 函数但是我无法向用户显示下载的文件预期的行为应该就像我们通常在状态栏上看到通知图标一样单击图标会打开您的文件 FileSystem downl
DNS 服务器管理的域列表[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我们有一台运行 Ensim 的服务器这是一个类似 Plesk 的旧工具让我们的行为就像是一个网络主机一样多年来我们慢慢退出了托管业务但我们的
Oracle默认的日期格式是YYYY-MM-DD，为什么？

Oracle 的默认日期格式是 YYYY MM DD 这意味着如果我这样做 select some date from some table I lose我约会的时间部分是的我知道你可以通过以下方式解决这个问题 alter sess
是否可以获得“this”指针的地址？

我读到了this是一个右值我们无法通过应用来获取它的地址 this 在我的代码中我尝试使用引用绑定this 我想知道哪种方式可以给出地址this 还是两者都错了到底是什么this 左值右值关键字还是其他什么 void MyStri
数独求解算法 C++

我花了几天时间尝试制作一个数独解决程序但我被这些方法所困扰我在这里找到了这个算法但我不太理解它从第一个空单元格开始并在其中输入 1 检查整个板子看看是否有冲突如果板上存在冲突请将当前单元格中的数字加 1 因此将 1 更改为
SQL NOT IN 可能存在性能问题

我正在尝试重构几段旧代码我已经重构了下面的当前代码并突出显示了NOT IN语句导致性能问题我正在尝试重写NOT IN具有左外连接的部分如果可能的话任何人都可以帮忙或者建议更好的方法吗 SELECT left unique id 1
有没有流畅的WPF项目？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案作为我不断尝试使用 WPF XAML 的一部分我对 UI 编码中流畅界面的应用产生了兴趣我知道 Fluent Silverlight http c
在 BeforeClose 事件期间保存 Word 文档时，并不总是触发 Shutdown 事件

我有一个 Microsoft Word 插件使用VSTO and c 对于每个文档我使用文档 ShutDown 事件来清理我的父对象并使用 BeforeClose 事件来对我的父对象进行预关闭验证我的验证需要保存文档并尝试在 Bef
在 Android 中选择 EGL 配置的正确方法是什么？

我正在使用自己的 GLSurfaceView 并且一段时间以来一直在努力解决与 EGL 配置选择器相关的崩溃问题似乎通过调用请求 RGB 565setEGLConfigChooser 5 6 5 0 16 0 应该是最受支持的然而使用
上课需要记忆吗？

class Test int x int main cout lt lt sizeof Test return 0 输出 4我只是想问即使我没有创建 Test 类的任何对象为什么它会打印 4 sizeof X 是字节数X创建时需要致电
使用 Apache AGE 制作最短路径

我一直在阅读 Jasper Blues 的博客文章使用 NEO4J 进行摇滚式流量路由 https medium com neo4j rock n roll traffic routing with neo4j 3a4b863c6030但
我应该如何在 axios GET 请求中发送 JWT 令牌？ [复制]

这个问题在这里已经有答案了我是 Vue js 新手想要在组件中向受限 api 发出请求 computed token return this store getters getToken created axios get this B
函数构造函数和原型构造函数有什么区别？

我想知道这有什么区别 MyClass function MyClass prototype Foo function and this MyClass MyClass prototype constructor function MyCla
如何在androidsharedPreference中存储类对象？

我想将类对象存储在android共享首选项中我对此进行了一些基本搜索得到了一些答案例如使其可序列化对象并存储它但我的需求非常简单我想存储一些用户信息例如姓名地址年龄和布尔值是否处于活动状态我为此创建了一个用户类 publi
asp.net mvc 按名称和区域查找控制器

我的目标是从控制器的名称和区域中找到控制器如果我当前的httpContext与待找到的控制器位于同一区域内但是我无法拨打电话ControllerFactory考虑面积这是我的代码 public static ControllerBa
匹配 JavaScript 中除特定模式之外的所有内容

经过多次搜索我仍然感到困惑如何匹配字符串中除与给定模式匹配的内容之外的所有内容我找到了使用以下方法否定特定单词或字符集的解决方案或负面展望但我需要一个解决方案来否定任何与特定模式匹配的内容示例文本 html 片段 abcd ef
java.lang.IllegalStateException：指定的子级已经有父级

当我第一次实例化一个片段时我正在使用片段但第二次我遇到了这个例外我找不到出错的行 04 04 08 51 54 320 E AndroidRuntime 29713 FATAL EXCEPTION main 04 04 08 51 5
GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保

GPU 上非原子写入的保证很弱吗？

GPU 上非原子写入的保证很弱吗？ 的相关文章

随机推荐

热门标签

GPU 上非原子写入的保证很弱吗？的相关文章