OpenCL - 多个 GPU 缓冲区同步

2023-12-06

我有一个 OpenCL 内核，用于计算系统中其他粒子对某个粒子施加的总力，然后是另一个积分粒子位置/速度的内核。我想在多个 GPU 上并行化这些内核，基本上为每个 GPU 分配一定数量的粒子。但是，我必须多次运行该内核，并且每个 GPU 的结果都会用于其他 GPU。让我进一步解释一下：

假设 GPU 0 上有粒子 0，GPU 1 上有粒子 1。粒子 0 上的力发生了变化，粒子 1 上的力也发生了变化，然后积分器相应地改变了它们的位置和速度。然后，需要将这些新位置放置在每个 GPU 上（两个 GPU 都需要知道粒子 0 和粒子 1 的位置），并且这些新位置用于在下一步中计算每个粒子上的力，由积分器，其结果用于计算力等。本质上，在力计算进行时，所有缓冲区都需要包含相同的信息。

所以，问题是：考虑到每个 GPU 都有不同的缓冲区，跨 GPU 同步缓冲区的最佳方法是什么？如果我想保持并行性，它们就不能有一个共享缓冲区，根据我的最后一个问题（不过，如果有一种方法可以创建共享缓冲区并仍然保留多个 GPU，我完全赞成）。我怀疑每一步复制结果会导致比跨 GPU 并行算法更慢的速度。

我确实找到了这个线程，但答案并不是很明确，并且仅适用于所有 GPU 上的单个缓冲区。我特别想知道 Nvidia GPU（更具体地说，Tesla M2090）。

EDIT:事实上，按照Khronos 论坛上的这个帖子OpenCL 工作组的一位代表表示，共享上下文上的单个缓冲区确实分布在多个 GPU 上，每个 GPU 都确保其内存中具有最新信息。然而，我在 Nvidia GPU 上没有看到这种行为；当我使用watch -n .5 nvidia-smi当我的程序在后台运行时，我看到一个 GPU 的内存使用量上升了一段时间，然后下降，而另一个 GPU 的内存使用量上升。有没有人可以指出我正确的方向？也许这只是他们的实施？

听起来您在实施方面遇到了麻烦。

SIGGRAPH 有一个精彩的演示，展示了利用共享内存的多个 GPU 的几种不同方法。幻灯片是here.

我想，在您当前的设置中，您有一个包含多个设备和多个命令队列的上下文。对于您正在做的事情来说，这可能是正确的方法。

附录AOpenCL 1.2 规范说：

OpenCL 内存对象[...]是使用上下文创建的，并且可以在使用同一上下文创建的多个命令队列之间共享。

Further:

应用程序需要在主机处理器上的线程之间实现适当的同步，以确保当多个线程中的多个命令队列正在执行时，共享对象状态的更改以正确的顺序发生更改共享对象的状态。

因此，在我看来，计算粒子位置和速度的内核需要依赖于计算粒子间力的内核。听起来你已经知道了。

为了更具体地表达你的问题：

考虑到每个 GPU 都有不同的缓冲区，跨 GPU 同步缓冲区的最佳方法是什么？

...我认为答案是“不要将缓冲区分开”。使用相同的cl_mem两个设备之间的对象cl_mem对象来自相同的上下文。

至于数据实际存在的位置......正如您所指出的，这是实现定义的（至少据我从规范中可以看出）。您可能不应该担心数据所在的位置，而只需从两个命令队列访问数据即可。

我意识到这可能会造成一些严重的性能问题。实现可能会发展并变得更好，因此如果您现在根据规范编写代码，它将来可能会运行得更好。

为了获得更好（或最少不同）的缓冲区共享行为，您可以尝试的另一件事是使粒子数据成为贴图。

如果有帮助的话，我们的设置（一堆带有双 C2070 的节点）似乎相当优化地共享缓冲区。有时，数据仅保存在一台设备上，有时数据可能同时存在于两个位置。

总而言之，我认为这里的答案是按照规范提供的最佳方式进行操作，并希望在实施方面取得最佳效果。

我希望我能有所帮助，

Ryan

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

NVIDIA

OpenCL - 多个 GPU 缓冲区同步的相关文章

GPU 显存带宽理论与实际

作为在 GPU 上运行的算法分析的一部分我觉得我正在达到内存带宽的要求我有几个复杂的内核执行一些复杂的操作稀疏矩阵乘法归约等和一些非常简单的操作当我计算每个内核读取写入的总数据时似乎所有重要的都达到了约 79GB s 的
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
PyOpenCL 矩阵乘法

我有使用 pyopenCL 进行矩阵乘法的代码我的问题是某些矩阵的结果是错误的我不明白为什么经过一番研究后我认为它与类似的全球规模有关但我不明白如何设置该值例如使用 numpy dtype float32 的矩阵矩阵1 0
NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

我的电脑有一块 GeForce GTX 960M NVIDIA 声称它有 640 个 CUDA 核心然而当我运行 clGetDeviceInfo 来查找计算机中的计算单元数量时它打印出 5 见下图听起来 CUDA 核心与 OpenC
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
多个 OpenCl 内核

我只是想问是否有人可以提醒我在相继使用几个简单内核时要注意什么我可以用同样的吗CommandQueue 我可以跑几次吗clCreateProgramWithSource cl program与不同的cl program 我忘记了什么 T
boost::计算流压缩

如何使用 boost compute 进行流压缩例如如果您只想对数组中的某些元素执行繁重的操作首先生成掩码数组其中包含与要执行操作的元素相对应的元素 mask 0 0 0 1 1 0 1 0 1 然后对掩码数组进行排它扫描前缀和
GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保
OpenCL 在调用 clGetPlatformIDs 时崩溃

我是 OpenCL 新手在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
官方 OpenCL 2.2 标准是否支持 WaveFront？

众所周知 AMD OpenCL 支持 WaveFront 2015 年 8 月 http amd dev wpengine netdna cdn com wordpress media 2013 12 AMD OpenCL Programm
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解
如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？

我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D 我重写了该库以使用 Nvidia nvision 执行立体 3D 我将 OpenGL 与 GLUT 一起使用并使用 glutInitDisplayMode
OpenCL 何时使用全局、私有、本地、常量地址空间

我正在尝试学习 OpenCL 但我很难决定使用哪些地址空间因为我只找到组装的资源声明这些地址空间是什么但没有声明它们为什么存在或何时使用它们资源至少太分散了所以带着这个问题我希望把所有这些信息汇总一下所有地址空间是什么它们为什么
如何在 Emgu CV 项目中利用 OpenCL

我是使用 Emgu CV 的新手并开始创建小型示例项目例如面部检测眼睛检测等如果我可以利用 OpenCL 来加速使用 GPU 的过程那就太好了否则当我降低scaleFactor时它会导致大量的CPU利用率我怎样才能做到这一
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof
在 OpenCL 中将函数作为参数传递

是否可以在 OpenCL 1 2 中将函数指针传递给内核我知道可以用C实现但不知道如何在OpenCL的C中实现编辑我想做这篇文章中描述的同样的事情在 C 中如何将函数作为参数传递 https stackoverflow com q
无法初始化 NVML：几个小时后 Docker 中出现未知错误

我遇到有趣而奇怪的问题当我使用 GPU 启动 docker 容器时它工作正常并且我看到 docker 中的所有 GPU 然而几个小时或几天后我无法在docker中使用GPU 当我做nvidia smi在泊坞窗机器中我看到这条消息

随机推荐

jQGrid - 更改分组标题的背景颜色

我正在使用 jQGrid 进行分组每个组标题将具有以下三种可能性之一 Pending Duplicate Not Duplicate 根据该文本我想更改分组标题的背景颜色我已经在使用了rowattrjQGrid 的属性来更改网格行的背
使用 NLTK 检查英语语法 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我开始使用NLTK库我想
SpringBeanFacesELResolver 的 javax.faces.el.VariableResolver 类转换异常

我正在尝试升级到 JSF2 和 Spring 3 0 5 当我部署到 Tomcat 时出现以下错误任何帮助表示赞赏 SEVERE Exception sending context initialized event to listene
如何使用 PHP 动态发布 ical 文件以供 Google 日历读取？

任何关于 PHP ical 的 Google 搜索都会带来 phpicalendar 以及如何解析或读取 IN ical 文件我只想编写一个 PHP 文件从数据库中提取事件并以 ical 格式写出它们我的问题是我找不到任何地方可以回答
将 Sorbet RBI 添加到 gem 的目录结构是什么？

我有一个gem我想添加类型通过提交 PR 或通过分叉仅在我的项目中使用但是文档除了创建一个 rbi folder 大声思考是否应该镜像文件lib 添加了类型签名或者应该是一个大文件每个版本就像中的签名一样冰糕型我还不知道有任何
如何在 iOS 10+ 中自定义通知的简短预览

我已经在我的应用程序中实现了基于 iOS 的丰富通知本地和远程通知编程指南我看了WWDC通知简介高级通知 and 最佳实践并阅读UNNotificationContentExtension 所有这些都表明我可以实现通知内容扩展来自定义
无需重定向的 Ajax Django 登录/身份验证

我正在尝试建立类似于 StackOverflow 的身份验证设置其中正常浏览永远不会受到影响除非有一些需要身份验证的特权操作在此之前不要打扰用户如果未登录则应为登录如果已登录则应为用户名 base html 来自fallr
Karma 测试在 chrome 中失败，但在 phantomjs 中通过

我已经为此奋斗了一段时间似乎找不到正确的解决方案我正在运行一个使用 Angular 2 测试环境的 ionic 2 项目当我使用 karmas chrome 启动器运行 ng 测试时出现以下错误 START 07 12 2016 1
Golang 到 wasm 编译

我使用以下命令将 Golang 代码编译为 wasm GOOS js GOARCH wasm go build o main wasm 尝试使用 wasmtime 执行时出现以下错误 wasmtime main wasm Error fai
如何使用 NAs - R 简单地计算行数[重复]

这个问题在这里已经有答案了我正在尝试计算整个 df 的 NA 行数因为我正在计算 NA 的行数占 df 总行数的百分比我已经看过这个帖子了确定具有 NA 的行数但它只显示特定范围的列 tl dr 逐行你会想要sum complet
fullcalendar：有没有办法仅在我通过事件函数加载事件后调用 dayRender

我正在构建的网络应用程序中使用 fullcalendar 我加载我的事件事件函数和阿贾克斯这是我的代码 var ajaxData var eventsJsonArray var json backgrundColor var json i
“实验性”gradle 插件在本机库链接期间出现“未定义引用”错误

我尝试使用基于实验性 com android 的新构建系统创建一个简单的 JNI 应用程序 model application com android tools build gradle experimental 0 9 2 gradl
从 StreamReader 读取文件时出现 C# 编码问题（问号）

我在从 Windows Phone 应用程序读取 txt 文件时遇到问题我制作了一个简单的应用程序它从 txt 文件读取流并打印它不幸的是我来自意大利我们有很多带有口音的信件问题是事实上所有带重音的字母都被打印为问号这是示例
如何通过 XAML 设置 LISTBOX 工具提示

我在 WPF 中有一个列表框如下所示
如何动态迭代/检测 ValueTuple 中具有空成员的成员类型？ [复制]

这个问题在这里已经有答案了我正在尝试利用ValueTuple简洁地输入一个列表N泛型方法的参数列表中的类型然后迭代该类型列表但是我在迭代类型时遇到了问题因为初始Tuple has null会员所以打电话 GetType 给了我一
JScrollPane 未滚动超过设定大小

我正在使用一个滚动窗格里面有一个 JPanel 它绘制一个正方形网格这些正方形是来自数组的对象如果数组是大小为 18 2 的矩形 83 81 则它看起来像 https i stack imgur com MEBrt png 注意网格
如何使用 python 和底图绘制不规则间隔的 RGB 图像？

鉴于我有三个矩阵来描述我想要绘制的数据 lons 具有 n lons n lats 的二维矩阵 lats 具有 n lons n lats 的二维矩阵 dataRGB 具有 n lons n lats 3 的 3D 矩阵使用 python
从 Linux 内核发送小 UDP 数据包到 LOOPBACK

情况我的代码基本上被侵入了 Linux 内核的驱动程序我想在将值得注意的原始事件发送到主系统之前通知用户空间中的应用程序解决方案步骤我在这里找到了一个从内核空间发送 UDP 数据包的好例子 http kernelnewbies or
当我使用 pyinstaller 创建 .exe 文件时，“应用程序冻结时找不到 dynlib/dll”，因为 pylibmtx 发生了错误

when I 我正在努力制作 exe 文件错误消息显示第 9 行有问题所以我检查了我的代码有导入的库 pylibdmtx 用于解码数据矩阵所以我尝试删除有关该库的所有内容以及其他相关属性然后就可以了我试图找出该问题以进行故障排除
OpenCL - 多个 GPU 缓冲区同步

我有一个 OpenCL 内核用于计算系统中其他粒子对某个粒子施加的总力然后是另一个积分粒子位置速度的内核我想在多个 GPU 上并行化这些内核基本上为每个 GPU 分配一定数量的粒子但是我必须多次运行该内核并且每个 GPU 的

OpenCL - 多个 GPU 缓冲区同步

OpenCL - 多个 GPU 缓冲区同步 的相关文章

随机推荐

热门标签

OpenCL - 多个 GPU 缓冲区同步的相关文章