CUDA 中的块间同步

2023-12-31

我为这个问题搜索了一个月。我无法同步 CUDA 中的块。

我读过很多关于atomicAdd、合作组等的文章。我决定使用一个全局数组，这样一个块就可以在全局数组的一个元素上写入。写入之后，块的线程将等待（即陷入 while 循环），直到所有块都写入全局数组。

当我使用 3 个块时，我的同步效果很好（因为我有 3 个 SM）。但使用 3 个街区可以让我获得 12% 的入住率。所以我需要使用更多的块，但它们无法同步。问题是：SM 上的一个块等待其他块，因此 SM 无法获取另一个块。

我能做些什么？当区块数量超过SM数量时，如何同步区块？

CUDA-GPU 规范：CC。 6.1、3 SM、Windows 10、VS2015、GeForce MX150 显卡。请帮助我解决这个问题。我使用了很多代码，但没有一个起作用。

进行块间同步的 CUDA 编程模型方法是

（隐式）使用内核启动本身。在内核启动之前或完成之后，所有块（在启动的内核中）都会同步到已知状态。无论内核是从主机代码启动还是作为 CUDA 动态并行启动的一部分，这在概念上都是正确的。
（显式）使用网格同步CUDA合作团体 https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#cooperative-groups。这对支持有多种要求，您正在开始探索其他问题 https://stackoverflow.com/questions/53780815/how-can-using-cooperative-groups-feature-of-cuda-in-windows。支持最简单的定义是如果适当的财产 https://docs.nvidia.com/cuda/cuda-runtime-api/structcudaDeviceProp.html#structcudaDeviceProp_13c26ab51c96f39b115d7826337541914已设置 (cooperativeLaunch）。您可以使用编程方式查询属性cudaGetDeviceProperties() https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__DEVICE.html#group__CUDART__DEVICE_1g1bf9d625a931d657e08db2b4391170f0.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

parallelprocessing

CUDA

NVIDIA

GPU

CUDA 中的块间同步的相关文章

设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
HashSet 中的并行流不并行运行

我有想要并行处理的元素集合当我使用List 并行性有效但是当我使用Set 它不并行运行我编写了一个代码示例来显示该问题 public static void main String args ParallelTest test ne
shell进程的并行执行

有没有一个工具可以在 Windows 批处理文件中并行执行多个进程我发现了一些有趣的 Linux 工具 parallel http mi eng cam ac uk er258 code parallel html and PPSS ht
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
OpenMP 动态调度与引导调度

我正在研究 OpenMP 的调度特别是不同的类型我了解每种类型的一般行为但澄清一下何时进行选择会很有帮助dynamic and guided调度英特尔的文档 https software intel com en us articl
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
超出 CreateConstantBufferView 处虚拟地址的末尾

我正在遵循使用 DirectX12 进行游戏编程 ch 6 代码但在 ID3DDevice CreateConstantBufferView 中我发现 D3D12 错误 D3D12 错误 ID3D12Device CreateCons
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
我可以在 R 中并行读取 1 个大 CSV 文件吗？ [复制]

这个问题在这里已经有答案了我有一个很大的 csv 文件需要很长时间才能阅读我可以使用 parallel 或相关的包在 R 中并行读取此内容吗我尝试过使用 mclapply 但它不起作用根据OP的评论 fread来自data tab
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
MSBuild 未使用所有核心进行构建

我有一个使用 Visual Studios 2008 配置的项目当我打开 IDE 并点击构建时系统上的所有核心都用于构建该项目但是当我尝试从命令行构建时仅使用 1 个核心这是我正在运行的命令 C Windows Microsof
如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？

我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D 我重写了该库以使用 Nvidia nvision 执行立体 3D 我将 OpenGL 与 GLUT 一起使用并使用 glutInitDisplayMode
为什么 mex 文件中的 OpenMP 仅产生 1 个线程？

我是 OpenMP 新手我有以下代码使用配置了 MSVS2010 的 Matlab mex 可以正常编译计算机有 8 个可用处理器我也使用 matlabpool 检查过 include mex h include
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
OpenMP：无法并行化嵌套 for 循环

我想将循环与其中的内循环并行化我的代码如下所示 pragma omp parallel for private jb ib shared n Nb lb lastBlock jj W WT schedule dynamic private
调用许多网络服务的最佳方式？

我有 30 家子公司每家都实施了他们的 Web 服务使用不同的技术我需要实现一个Web服务来聚合它们例如所有子公司的Web服务都有一个名为的Web方法GetUserPoint int nationalCode 我需要实现我的网络服
Perl Parallel::Forkmanager 不允许收集变量值

也许因为子进程不知道我的散列请参阅下面的代码散列输出没有收集任何内容除了写入 tmp 文件之外还有其他方法来收集该值吗 foreach Item AllItems pid pm gt start Item and next Tem
如何查看 GNU make 运行的命令？

我正在尝试调试一个复杂的 Makefile 如何让 GNU make 打印它运行的所有命令我在问题中找不到答案man页使用 d 标志似乎不会打印它这不是回答我的问题所必需的信息但如果您想知道我在编译基于 NVIDIA CUDA 库

随机推荐

有没有办法更快地渲染点OpenGL

我需要在 openGL 中可视化大约 50k 60k 点我设法将它们全部打印出来但是当我使用旋转时每次旋转之间需要花费很多时间因为它只是打印每一帧的所有数据有没有办法一次性打印所有数据并冻结数据的导入以便保留图像但停止处理 de
如何检测本地存储何时被清除

我在页面 A 中添加了本地存储中的一些值当我转到页面 B 时本地存储不应被清除但确实如此这是一个程序错误但是我无法正确跟踪它以了解这种情况何时发生我尝试执行 setInterval 来每 1 秒在控制台中记录一次本地存储的值
Ctrl + A 和类似的选择操作快捷键在可视代码中不起作用

Select all copy cut and paste are not working by using the usual keyboard shortcuts ctrl a c x or v 对于 VS Code 1 55 1 我通
在 Angular 1 中，如何对 ng-repeats 进行分页？

我目前使用过滤器将 ng repeat 限制为 5 但我想知道如何对数据进行分页 div 我有数量不定的重复项目我希望用户能够以合理的块查看这些项目一次五个并使用下一个上一个按钮或页码来跳过是否有一个非常适合这项任务的角度指令使
出现错误 -java.lang.NoClassDefFoundError: javax/faces/component/behavior/ClientBehaviorHolder

我在集成 SWF Primefaces 2 2 1 JSF 2 Spring Security 3 Spring 3 1 0 时遇到奇怪的错误 INFO Unsanitized stacktrace from failed start co
了解 Python WSGI 应用程序中的全局对象持久性

请考虑 Google App Engine 中我的 WebApp2 应用程序中的以下代码 count 0 class MyHandler webapp2 RequestHandler def get self global count co
正则表达式删除重复单词？

我用它来删除重复的单词 Notepad 或 Powergrep b w b W 1 用来代替 1 如何更改以查找不连续的重复单词排成一行并删除第二个重复的单词 Example word1 word2 word1 word3 Result
将四元数从右手坐标翻转到左手坐标

我需要从右边翻转四元数 x left to right y front to back z top to bottom 到左手坐标其中 x left to right y top to bottom z front to back 我该怎
unordered_set 将元素存储为指针

缩小范围我目前正在使用升压无序 http www boost org doc libs 1 49 0 doc html unordered html 我看到两种可能的解决方案定义我自己的等式谓词和哈希函数 http www boost
VS2010不会显示项目属性（“底层RCW”）？

只有有时我还没有注意到模式当我右键单击一个项目各种类型的项目并选择特性我通常可以在重新启动 VS2010 后查看项目页面我用的是RTM版本什么可能导致此错误莱帕德英国我遇到了同样的问题最后发现出了什么问题这是行为不当
传单标记在某些情况下不显示

我正在使用 leaflet htmlwidget 实现来使用 R 绘制基于 Web 的地图我正在寻找特定的标记但找不到它并意识到它根本没有显示但是当我将数据集子集化为just该条目标记显示得很漂亮这是标记的屏幕截图在将数据子
EF 映射为表中的所有列名称添加前缀

我有一个大型现有数据库它有一个约定其中所有列名称都以非复数表名作为前缀例如 Tablename addresses Columns addressId addressLine1 addressLine2 是否有任何配置可以申请映射使
CMake 安装目标依赖项

我正在编写一个包含库本身和示例的库并且我正在使用 CMake cmake minimum required VERSION 3 6 add executable example main cpp install DIRECTORY inc
断开连接时 Firebase 更新

我在 firebase 上有一个节点列出了游戏中的所有玩家当新玩家加入时此列表将更新当当前用户我断开连接时我想将自己从列表中删除由于列表会随着时间的推移而变化在我断开连接的那一刻我想更新此列表并更新 firebase 这
javascript var 和 not var 有什么区别？ [复制]

这个问题在这里已经有答案了可能的重复 JavaScript 中使用 var 和不使用 var 的区别 https stackoverflow com questions 1470488 difference between using v
如果在离线状态下加载/刷新页面，JavaScript 后台同步将停止工作

我目前正在学习如何使用后台同步来允许用户在离线使用网络应用程序时进行 PUT POST 更改我按照杰克阿奇博尔德 Jake Archibald 的指示进行操作后台同步简介 https developers google com web
如何在 Asyncstorage 中设置多个值

如何在 Asyncstorge 中设置多个值因为我正在尝试设置token and user id 这些是服务器响应值这就是响应的样子 json error 0 data User registered Successfully user
NSArray 基于密钥的 Tokenize

我已经从服务器获取了数据并且传递的数据也填充了NSMutableArray after NSJSONSerialization 数组输出如下 NSArray jsonArray NSArray json NSLog Array jsonAr
是否可以检测文件是否实际下载

假设我有一个返回的控制器操作方法FileResult 是否可以检测文件是否被实际下载的完全交给客户 public ActionResult GetFile int id DownloadInfo data provider GetInfo
CUDA 中的块间同步

我为这个问题搜索了一个月我无法同步 CUDA 中的块我读过很多关于atomicAdd 合作组等的文章我决定使用一个全局数组这样一个块就可以在全局数组的一个元素上写入写入之后块的线程将等待即陷入 while 循环直到所有块都写

CUDA 中的块间同步

CUDA 中的块间同步 的相关文章

随机推荐

热门标签

CUDA 中的块间同步的相关文章