CUDA：同步线程

2024-03-13

几乎在我读到的有关 CUDA 编程的任何地方都提到了 warp 中的所有线程都执行相同操作的重要性。
在我的代码中，我遇到了无法避免某种条件的情况。它看起来像这样：

// some math code, calculating d1, d2
if (d1 < 0.5)
{
    buffer[x1] += 1;  // buffer is in the global memory
}
if (d2 < 0.5)
{
    buffer[x2] += 1;
}
// some more math code.

一些线程可能会根据条件进入其中一个，一些线程可能会进入两者，而其他线程可能不会进入其中任何一个。

现在，为了使所有线程在条件满足后再次回到“做同样的事情”，我应该在条件满足后使用__syncthreads()？或者这会以某种方式自动发生吗？
两个线程可以吗not由于其中一个操作落后而做同样的事情，从而毁了每个人？或者是否有一些幕后努力让他们在分支之后再次做同样的事情？

在扭曲内，任何线程都不会“领先于”任何其他线程。如果存在一个条件分支，并且它被 warp 中的某些线程采用，但其他线程没有采用（也称为 warp“发散”），则其他线程将闲置，直到分支完成，并且它们都在公共指令上“聚合”在一起。因此，如果您只需要线程的扭曲内同步，那么就会“自动”发生。

但不同的扭曲不会以这种方式同步。因此，如果您的算法要求某些操作在多个 warp 上完成，那么您将需要使用显式同步调用（请参阅 CUDA 编程指南，第 5.4 节）。

EDIT:重新组织了接下来的几段以澄清一些事情。

这里实际上有两个不同的问题：指令同步和内存可见性。

__syncthreads()强制指令同步并确保内存可见性，但仅限于块内，而不是跨块（CUDA 编程指南，附录 B.6）。它对于共享内存上的先写后读很有用，但不适合同步全局内存访问。
__threadfence()确保全局内存可见性，但不执行任何指令同步，因此根据我的经验，它的用途有限（但请参阅附录 B.5 中的示例代码）。
内核中不可能进行全局指令同步。如果你需要f()在调用之前在所有线程上完成g()在任何线程上，拆分f() and g()分成两个不同的内核并从主机串行调用它们。
如果您只需要增加共享或全局计数器，请考虑使用原子增量函数atomicInc()（附录 B.10）。对于上面的代码，如果x1 and x2不是全局唯一的（在网格中的所有线程中），非原子增量将导致竞争条件，类似于附录 B.2.4 的最后一段。

最后，请记住，对全局内存的任何操作，特别是同步函数（包括原子）都会损害性能。

在不知道您要解决的问题的情况下，很难推测，但也许您可以重新设计算法，在某些地方使用共享内存而不是全局内存。这将减少同步的需要并提高性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA：同步线程的相关文章

gdb 通过指向错误的代码行显示不正确的回溯

我们可以通过在源代码中包含多个中止调用用非常简单的示例重现此问题在下面的示例代码中我们在不同条件下总共有四个中止调用但是当我们使用优化标志 O3 进行编译时我们只能看到一个中止调用的调试信息因此在这四个中止调用中发生崩溃时 g
如何通过点积获得峰值 CPU 性能？

Problem 我一直在研究 HPC 特别是使用矩阵乘法作为我的项目请参阅我的个人资料中的其他帖子我在这些方面取得了不错的成绩但还不够好我退后一步看看我在点积计算方面能做得如何点积与矩阵乘法点积更简单并且允许我测试 HPC
为什么 SSE 对齐读取 + 随机播放在某些 CPU 上比未对齐读取慢，而在其他 CPU 上则不然？

在尝试优化有限差分代码所需的未对齐读取时我更改了未对齐的负载如下所示 m128 pm1 mm loadu ps H k 1 进入这个对齐的读取随机播放代码 m128 p0 mm load ps H k m128 pm4 mm load
查找二维空间中圆内的所有点

我表示我的 2D 空间考虑一个窗口其中每个像素显示为 2D 数组中的一个单元格即 100x100 的窗口由相同维度的数组表示现在给定窗口中的一个点如果我画一个半径的圆r 我想找到该圆圈中的所有点我想我应该检查半径周围方形区域中的
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
同步迭代 javascript 对象

我有一个像这样的对象 let myObject db1 db1 file1Id db1 file2Id db 1file3Id db2 db2 file1Id db2 file2Id 我遍历这个对象并在每次迭代中我连接到数据库检索文件
Python 中快速、小型且重复的矩阵乘法

我正在寻找一种使用 Python Cython Numpy 快速将许多 4x4 矩阵相乘的方法任何人都可以给出任何建议吗为了展示我当前的尝试我有一个需要计算的算法 A 1 A 2 A 3 A N 哪里每个 A i A j Python
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
gcc总是做这种优化吗？（公共子表达式消除）

作为示例假设表达式sys gt pot atoms item gt P kind mass在循环内求值循环只改变item 因此表达式可以简化为atoms item gt P kind mass通过将变量定义为atoms sys gt p
快速分类（分箱）

我有大量条目每个条目都是浮点数这些数据x可以通过迭代器访问我需要使用像这样的选择对所有条目进行分类10
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
在哪里可以找到有关 IOS 日历同步的优秀教程？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在开发 iPhone 应用程序如何将新事件与 iOS 日历同步您可以浏览此 github 代码
优化正则表达式来解析中文拼音[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个有
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
在.net中的lock语句中调用Thread.Sleep()

我想知道在已经获取监视器的线程上调用 Thread Sleep 是否会在进入睡眠状态之前释放锁 object o new object Montior Enter o Thread Sleep 1000 Monitor Exit o 当线程
如何确保使用 Microsoft Sync Framework 同步成功？

我正在使用微软同步框架 https msdn microsoft com en us sync bb736753 aspx同步两个 Microsoft SQL Server 上的表我创建了一个测试应用程序它每秒在远程服务器上的表中生成一

随机推荐

获取文本视图和图像视图相对于屏幕顶部的结束位置

我有一个位图它下面是一条时间线作为一个例子考虑右侧的布局FIGURE https stackoverflow com questions 17103026 canvas containing bitmap size proper ad
LLVM 的 amd64 输出中向量的对齐

我正在尝试通过 LLVM 在结构内部使用向量我的结构有以下 C 定义 struct Foo uint32 t len uint32 t data 32 attribute aligned 16 下面是一些 LLVM 代码用于将 42 添
如何检查三元运算符中未定义的变量？

我对三元运算有疑问 let a undefined Defined Definitely Undefined b abc Defined Definitely Undefined ReferenceError c abc undefined
编码 UI：通过 CSS 选择器查找元素

我正在尝试为页面构建一个工具以便我们可以针对它编写测试我希望能够做的是使用 CSS 选择器来查找给定的一个或多个元素而不是手动修改 SearchProperties 或 FilterProperties 对于 Web 测试 CSS 选
使用 C# 进行声音合成

C 是否有可能生成声音我的意思不仅仅是发出蜂鸣声或打开并播放波形文件我的意思是使用不同类型的波正弦波锯齿波等及其选项频率幅度等构建信号查看NAudio https github com naudio NAudio在 Git
SQL 列中的 XML：无法调用 nvarchar(max) 上的方法

我有一个 sql 查询该查询在我的列名上出现错误提示无法调用 nvarchar max 上的方法 SELECT LEARNER COURSE XML TEST XML EX Query declare namespace x http
按 Javascript 数组中出现的次数（计数）排序

我是 Jquery 和 Javascript 的新手有人可以帮我根据数组中出现的次数计数进行 Jquery 排序吗我尝试了各种排序方法但没有一个有效我有一个 Javascript 数组它是 allTypesArray 4 4
自定义SeekBar的矩形边缘[重复]

这个问题在这里已经有答案了我已经定制了SeekBar用一个分层绘制 drawable工作正常但是用作背景的drawable在角处变成圆角两个角这里只显示右端当拇指移动到最左边时左角也变圆注意原始图像是矩形的我怎样才能把它变
在 iOS 中测量/计算距离

我需要计算 iOS 中两点之间的距离我可以保证至少有一部iPhone 4 所以相机的图像质量应该很好这个想法是使用图片计算到某个点的距离有一个名为 easyMeasure 的应用程序它完全可以满足我的需要我对毕达哥拉斯很满意但这
将简单的服务器代码部署到 Heroku

我最近访问了 heroku com 网站并尝试在那里部署我的第一个 Java 程序实际上我使用他们的 Java 部署教程有了一个良好的开端并且运行正常现在我有一个需要在那里部署的服务器代码我尝试遵循该示例但我有一些问题例如 1
邮递员 - 为每个请求覆盖用户代理

我有一个网站只有在基本身份验证登录后才能访问您可以使用特定的用户代理绕过它有没有办法始终将新请求的用户代理设置为某个值目前它被硬编码为PostmanRuntime 7 29 0 目前我总是为每个请求手动设置它但这会减慢工作流程
Hedera 上几乎相同的交易中“gasUsed”值存在巨大差异 - 为什么？

我注意到所使用的气体量之间存在差异通过交易几乎是相同的我正在调用智能合约连续两次使用相同的参数两者之间的唯一区别是我正在设置gasLimit到精确值由返回eth estimateGas在第一个中我正在设置gasLimit to
如何不需要用户输入 install.packages(type = "both")

通常情况下 install packages type both 如果有需要从源代码构建的包则需要用户输入例如目前 R 3 5 1 install packages c feather tidyr type both 将从二进制安装
如何更新 bitbucket 上的拉取请求？

如何在本地计算机上的 IDE 中的 bitbucket 上更新您自己的拉取请求之一此工作流程没有按我的预期工作克隆你的叉子检查您用于拉取请求的分支做出改变 git 添加 git 提交推送提交到您的分叉存储库到目前为止一切顺利
MenuStrip 无法获得负载焦点

我会尽可能准确我有一个主表单我们将在 Form1 中将其称为 Form1 用户可以通过菜单条启动另一个表单在 Form2 中将其称为 Form2 我有另一个菜单条和一个数据网格视图我的问题是当用户启动 Form2 时我必须在菜单
R函数将对象转换为代码

我正在 R 中寻找一个函数它将对象转换为可用于创建该对象的副本的代码像这样的事情 gt myObject c 1 2 3 gt magicFunction myObject 1 c 1 2 3 我认为这个功能是存在的但我找不到它非常
使用 Nginx 服务器设置 Symfony

我的项目需要使用 Nginx 服务器设置 symfony 我之前曾将 Symfony 与 Apache 一起使用目前我已按照此处提到的步骤进行操作但不知何故它运行不正常 Update nginx wiki 现在包含symfony 1 4
Javascript eval() 和附加脚本标签之间的区别

我想知道是否有人可以解释使用 Javascript 的 eval 和另一种方法之间的区别例如使用 JQuery 创建脚本标签然后将该元素附加到页面 eval somecode vs appendTo head 不确定这是否相关但上下文
如何让 Ohai 插件生成 ['etc']['passwd']？

我已将 Chef 客户端从14 0 to 15 3 14但每当我在我的节点 macOS Mojave 上执行 Chef client 时就会出现问题客户端输出是 undefined method for nil NilClass Coo
CUDA：同步线程

几乎在我读到的有关 CUDA 编程的任何地方都提到了 warp 中的所有线程都执行相同操作的重要性在我的代码中我遇到了无法避免某种条件的情况它看起来像这样 some math code calculating d1 d2 if d1

CUDA：同步线程

CUDA：同步线程 的相关文章

随机推荐

热门标签

CUDA：同步线程的相关文章