CUDA：归约还是原子操作？

2023-11-29

我正在编写一个 CUDA 内核，其中涉及计算给定矩阵上的最大值，并且我正在评估可能性。我能找到的最好方法是：

强制每个线程在共享内存中存储一个值，然后使用缩减算法来确定最大值（优点：最小分歧缺点：共享内存在 2.0 设备上限制为 48Kb）

我无法使用原子操作，因为同时存在读取和写入操作，因此线程无法通过synchthreads进行同步。

您还有其他想法吗？

您可能还想使用 CUDA Thrust 附带的缩减例程，它是 CUDA 4.0 的一部分或可用here.

该库由两位 nVidia 工程师编写，与大量手工优化的代码相比毫不逊色。我相信网格/块大小也正在进行一些自动调整。

您可以通过包装原始设备指针轻松地与您自己的内核进行交互。

这严格是从快速集成的角度来看的。有关理论，请参阅 tkerwin 的回答。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

matrix

CUDA

reduction

gpuatomics

CUDA：归约还是原子操作？的相关文章

Java：如何实现3和？

我正在研究 3 Sum 来自己实现它并遇到了以下规则的实现给定一个由 n 个整数组成的数组 S S 中是否存在满足 a b c 0 的元素 a b c 查找数组中所有总和为零的唯一三元组注意三元组 a b c 中的元素必须按非降序排
如何从二叉搜索树中均匀随机地返回节点？

给定一个 BST 可能平衡也可能不平衡如何能够均匀地随机返回任何节点一个限制是您不能使用外部索引数据结构您必须以每个节点都有平等被访问的机会的方式遍历树这个问题让我困惑了好一阵子如果我们确实可以使用外部哈希表指针我们可以对
用 Java 创建迷宫求解算法

我被分配了用 Java 创建迷宫求解器的任务这是任务 Write an application that finds a path through a maze The maze should be read from a file A
在 Java 中实现排列算法的技巧

作为学校项目的一部分我需要编写一个函数该函数将接受整数 N 并返回数组 0 1 N 1 的每个排列的二维数组该声明看起来像 public static int permutations int N 该算法描述于http www usn
如何查找给定字符串中仅出现一次的第一个字符[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
R 和 Python 中 LU 分解结果不一致

我有以下矩阵A in R 1 2 3 4 1 1 1527778 0 4444444 0 375 0 3333333 2 0 5555556 1 4888889 0 600 0 3333333 3 0 6250000 0 4000000 1
检索受“rowspan”影响的行的列索引的最有效方法是什么？

考虑下表 table thead tr th th th A th th B th th C th tr thead tbody tr th 1 th td Apples td td Oranges td td Pears td tr tb
固定大小集以包含给定集的最大数量

我有大约 1000 组尺寸 1 4 1 3 3 5 6 4 5 6 7 5 25 42 67 100 是否有可能找到包含最大数量的给定集合的大小为 20 的集合检查每一个100 80 20 集效率低下我不太确定这是 NP 完全的考虑
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
将四元数旋转转换为旋转矩阵？

基本上给定一个四元数 qx qy qz qw 我如何将其转换为OpenGL旋转矩阵我也对哪个矩阵行是向上向右向前等感兴趣我有一个四元数的相机旋转我需要在向量中以下代码基于四元数 qw qx qy qz 其中顺序基于 Boo
点集子集的最小周长凸包

给定平面上的 n 个点没有 3 个共线给定数字 k 找到 k 个点的子集使得 k 个点的凸包在 k 个点的子集的任何凸包中具有最小周长我可以想到一个简单的方法运行时间为 O n k k log k 找到大小为 k 的每个子集的凸包
有人可以解释以下异或属性

我的一个论坛提到给定的数组n数字 arr 0 n 1 以下条件成立 is the xor运算符 f l r f 0 r f 0 l 1 where f l r arr l arr l 1 arr r 我检查了上面的数组数量和不同的值l an
无需构建树即可预测霍夫曼压缩比

我有一个二进制文件我知道其中每个符号出现的次数如果我要使用霍夫曼算法压缩它我需要预测压缩文件的长度我只对假设的输出长度感兴趣而不对单个符号的代码感兴趣因此构建霍夫曼树似乎是多余的作为一个例子我需要得到类似的东西包含 4 个
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
关于在字典中查找所有有效单词的算法问题

给定一个字典只是一个字符串列表您收到来自外部来源的未知数量的信件给定字母串您将如何列出您可以通过这些字母的任意组合组成的所有有效单词来自字典因此如果您收到 applead 你应该找到apple bad pad lead等我知
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
用 C++ 生成 AST

我正在用 C 制作一个解释器到目前为止我已经有了词法分析器来生成标记问题是我不确定如何生成行走解析树我正在考虑使用数组数组来制作解析树但我不确定如何以正确的顺序将标记实际插入到解析树中我不确定是自上而下左右还是自下而上左右
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我

随机推荐

poi读取现有的excel并用大数据进行编辑

我使用 apache poi 来读取和写入 excel 我可以毫无问题地做到这一点但是在现有 excel 上写入大型 excel 时我面临内存问题下面更详细地解释我有一个模板其中列标题是彩色的有些是合并的我说的是一张纸中的 1
在地址“0xXXXXXX”处中断，没有可用的调试信息，或在程序代码之外

配置使用 Nucleo L476RG 使用 GNU ARM Eclipse 我从 STM32CubeMX 生成了一个极简代码我已经在我的板载 ST Link 中刷新了 J link 驱动程序一直在尝试为我的代码运行调试器但我的程序计
Android Studio - 创建模块而不复制文件？

我正在 Android Studio 中创建具有依赖项的项目我知道如何通过添加模块来链接项目但我意识到导入模块会在项目内创建 libProject 的副本有办法防止这种情况吗就像外部模块由于我负责这两个项目因此我希望能够将
Ajax 联系表单问题 - 未发送电子邮件

抱歉我是个菜鸟但我正在尽力我已经完成并阅读了我能找到的所有内容但我从未让它发挥作用非常感谢您的帮助表单 ID 在 html 和 javascript 中匹配 PHP 链接在 Javascript 中我将 javascript 链
选择GUI时如何去除黑色边框？

我正在尝试添加一个Entry小部件到Frame with a Scrollbar 当我点击 GUI 时会出现黑色边框 import Tkinter as tk class Example tk Frame def init self ro
如何在基于servlet的项目中获取部署根目录？

我正在尝试从 java 获取基于 servlet 的项目的部署根目录我正在使用以下代码行来获取路径详细信息 Type 1 File directory new File try System out println Current dir
在 iPhone 中保留计数

我用过 anArray retainCount 获取数组的保留计数我知道这不应该使用但我只是为了学习保留概念而使用以下是我的代码 NSString str NSString alloc initWithFormat a b c d N
两个函数的 JavaScript 回调

有没有办法用Javascript ES6 实现下面的代码如果是我该怎么做我尝试了这个例子但没有成功 const funcA callback arg1 gt console log Print arg1 arg1 Print arg
GMail 上下文小工具无法正常工作

我正在尝试在我的域中部署上下文小工具我已遵循开发指南但该小工具未显示我认为问题在于数据访问如果安装似乎顺利则发生事件在 Google Apps 控制台中小工具的数据访问部分显示一个红色 X 如果我尝试通过按特定链接授予访问权
我可以更改之前创建的 matplotlib FuncAnimation 的间隔吗？

我试图弄清楚是否有任何方法可以更改现有 matplotlib FuncAnimation 的间隔我希望能够根据用户输入调整动画的速度我发现了类似的问题如何更改帧之间的间隔 python 但既然没有得到答案我想我还是会问它我需要和拥有
如果字符串以“1”开头，则替换标签之间的字符串

我有一个巨大的 XML 文件大约 100MB 每一行都包含以下内容
允许延期交货并通知客户有关 Woocommerce 中的特定产品类别

在 woocommerce 中我正在尝试添加一些代码functions php允许特定产品类别的缺货但代码不起作用如何在 Woocommerce 中允许延期交货并通知客户特定产品类别 Updated 尝试以下操作您将在数组中为每个函
使用任何东西在 Objective-C 中加密/在 Ruby 中解密

我们使用此代码在 iPhone 上的 Objective C 中进行加密 NSMutableData EncryptAES NSString key char keyPtr kCCKeySizeAES128 1 bzero keyPtr s
为什么C++11没有模板typedef？

为什么 C 11 没有模板类型定义例如 template
Liferay portlet：从 javascript 重定向到其他 jsp 页面

我想从 js 重定向到 liferay portlet 中的另一个 jsp 页面我发现的想法是使用 renderurl 我发现可以帮助我迈出第一步的最佳代码是 a href This render URL link is created
使用rollapply函数使用R进行VaR计算

我执行了以下操作来计算 20 个周期滚动窗口的风险价值 VaR require PerformanceAnalytics require zoo data edhec class edhec 1 xts zoo class edhec CT
有条件地将字符串替换为另一个字符串

我的数据结构如下所有变量均采用字符串格式 v1 v2 c1 c2 c1c2 00035A 943567 00088E 63968E 00088E 63968E 00088E 63968E 00088E 63968E 00088E 6396
是否可以创建一个可点击的类似Toast的通知？

我需要显示一个最小侵入性的非阻塞通知它是not与其显示的活动相关联例如Toast and这是可点击的有谁知道这是否可能不幸的是看来Toast通知自定义或其他不可点击即设置单击监听器对其观点没有影响我所知道的所有替代方案即
Python构造函数和默认值[重复]

这个问题在这里已经有答案了不知何故在下面的 Node 类中 wordList and adjacencyList变量在 Node 的所有实例之间共享 gt gt gt class Node def init self wordList
CUDA：归约还是原子操作？

我正在编写一个 CUDA 内核其中涉及计算给定矩阵上的最大值并且我正在评估可能性我能找到的最好方法是强制每个线程在共享内存中存储一个值然后使用缩减算法来确定最大值优点最小分歧缺点共享内存在 2 0 设备上限制为 48Kb

CUDA：归约还是原子操作？

CUDA：归约还是原子操作？ 的相关文章

随机推荐

热门标签

CUDA：归约还是原子操作？的相关文章