CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？

2023-12-07

在CUDA 9中，nVIDIA似乎有了“合作组”这个新概念；由于某种我不太清楚的原因，__ballot()现在（= CUDA 9）已弃用，取而代之的是__ballot_sync()。这是别名还是语义发生了变化？

...其他内置函数现在有类似的问题__sync()添加到他们的名字中。

不，语义不一样。函数调用本身不同，一个不是另一个的别名，新功能已经公开，并且 Volta 架构和以前的架构之间的实现行为现在有所不同。

首先，为了奠定基础，有必要认识到 Volta介绍了可能性 for 独立线程调度，通过引入每线程程序计数器和其他更改。因此，Volta 可能会在较长时间内以非扭曲同步行为运行，并且在执行期间（以前的架构可能仍然是扭曲同步的）。

大多数 warp 内在函数的工作方式是仅为实际参与的线程提供预期结果（即，在该周期中实际发出该指令时处于活动状态）。程序员现在可以通过新的方法明确哪些线程应该参与mask范围。然而，有一些要求，特别是对 Pascal 和以前的架构。从编程指南:

但请注意，对于 Pascal 和更早的体系结构，所有线程mask必须在收敛时执行相同的 warp 内在指令，并且 mask 中所有值的并集必须等于 warp 的活动 mask。

然而，在 Volta 上，warp 执行引擎将在掩码中指示的线程之间实现必要的同步/参与，以便使所需/指示的操作有效（假设适当的_sync使用内在的版本）。需要明确的是，warp 执行引擎将重新聚合在 volta 上发散的线程以匹配掩码，但是它不会克服程序员引起的错误，例如阻止线程参与_sync()通过条件语句内在的。

This相关问题讨论了mask范围。此答案并非旨在解决独立线程调度可能出现的所有可能问题以及对扭曲级别内在函数的影响。为此，我鼓励阅读编程指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？的相关文章

加强托管线程和操作系统线程之间的关系（CUDA 用例）

Problem 我正在尝试创建一个与 net 良好集成的 CUDA 应用程序设计目标是拥有多个可以从托管代码调用的 CUDA 函数数据还应该能够在函数调用之间保留在设备上以便可以将其传递给多个 CUDA 函数重要的是每个单独的数据
优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo

随机推荐

JButton 在鼠标悬停之前不可见

我正在为我的项目创建一个图形用户界面当 gui 首次加载时只有背景可见因此按钮不可见但当鼠标悬停在按钮上时它们是可见的解决这个问题的办法是什么 public class Home extends JFrame New JPane
在 Scala 中将嵌套案例类转换为嵌套映射

我有两个嵌套案例类 case class InnerClass param1 String param2 String case class OuterClass myInt Int myInner InnerClass val x Out
Azure表存储存储多种类型

对于以下场景您有什么建议我有一个名为 Users 的天蓝色表其中列如下首要的关键 RowKey 时间戳名 LastName Email Phone 然后每个用户都有不同类型的任务我们将它们称为TaskType1 和TaskTyp
jQuery：如果单击链接则添加类

我在链接中调用 jquery 函数 onclick 例如 a class active href Content 1 a a href Content 2 a a href Content 3 a 正如您所看到的第一个链接默认具有 act
词形还原java [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我正在寻找一个词形还原Java 中英语的实现我已经找到了一些但我需要一些不需要太多内存来运行的东西顶部 1 GB 谢谢我不需要词干分析器 T
在 webGL 中渲染 NURBS 曲面

我需要一些有关在 webGL 中渲染 NURBS 曲面的帮助几天前我们的教授指派我们用 NURBS 绘制一面旗帜并为其制作动画我们必须使用 webGL 并且不能使用 trhee js 我不知道如何继续尽管我或多或少了解 NURBS
将列表转换为集合会改变元素的顺序吗？

当我做类似的事情时 U 1 0 0 0 0 0 1 0 set U 它给了我 0 0 1 0 1 0 0 0 我只想将列表转换为集合有什么帮助吗 Thanks 套装未订购字典也没有排序如果您想保留特定顺序请使用列表 gt gt gt
是否有任何实际理由对 JSON 键使用带引号的字符串？

根据克罗克福德的说法json org 一个 JSONobject由制成由做成members 它由pairs 每对都是由一个string and a value 有一个string被定义为字符串是零个或多个的序列 Unicode 字符
Logstash 中的 JSON 解析器忽略数据？

我已经这样做有一段时间了我觉得 Logstash 中的 JSON 过滤器正在为我删除数据我最初遵循的教程来自https www digitalocean com community tutorials how to install el
具有基本身份验证的 jQuery AJAX 跨域

我正在尝试通过将数据拉入网页来利用 Beanstalk beanstalkapp com API 以便人们无需访问我的 SVN 即可查看它我正在尝试通过 jQuery 使用 AJAX 请求来访问它代码如下但每次都会出错并且无法返回数
如何将javascript变量值传递给php变量？

这是我的 JavaScript 代码我的html代码
使用 Java 8 动态创建具有复合键的映射

我想创建一个如下所示的地图 gt Map
对 Google Drive 的 Python 请求

我正在尝试使用 python requests 库将文件发送到 Google Drive api 我唯一需要它根据谷歌文档发送多部分请求https developers google com drive web manage uploads
TypeScript - 将类存储为映射值？

我的课很少 Test 课程延伸FrameModel 我如何创建地图string的子类FrameModel import FrameModel from FrameModel import TestShipModel from TestGen
Android NDK：如何链接多个第三方库

假设我们正在构建一个共享库 A 它需要链接到 2 个外部静态库 B 和 C 您所拥有的只是 libB a 和 libC a 以及它们的头文件这是 libA 的简化 Android mk LOCAL LDLIBS external libB
在 mysqli 准备好的语句中使用数组：`WHERE .. IN(..)`查询[重复]

这个问题在这里已经有答案了假设我们有一个查询 SELECT FROM somewhere WHERE id IN 1 5 18 25 ORDER BY name 以及要获取的 ID 数组 ids array 1 5 18 25 有了准备好
该程序中的堆栈指针如何通过 call 和 ret 更改

我的问题涉及当上下文发生变化时尤其是关于RSP and RBP 鉴于这个非常简单的程序 Reading symbols from function call done gdb disass main Dump of assembler c
Apache Flink：如何计算数据流中的事件总数

我有两个原始流我正在加入这些流然后我想计算已加入的事件总数和未加入的事件总数我正在通过使用地图来做到这一点joinedEventDataStream如下所示 joinedEventDataStream map new RichMapF
Vue：方法不是内联模板组件标记中的函数

我有这个组件
CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？

在CUDA 9中 nVIDIA似乎有了合作组这个新概念由于某种我不太清楚的原因 ballot 现在 CUDA 9 已弃用取而代之的是 ballot sync 这是别名还是语义发生了变化其他内置函数现在有类似的问题 sync 添加到

CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？

CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？ 的相关文章

随机推荐

热门标签

CUDA 9 中附加了一些以 `_sync()` 命名的内部函数；语义相同？的相关文章