OpenCL 浮点数求和减少

2023-11-25

我想对我的这段内核代码（一维数据）应用减少：

__local float sum = 0;
int i;
for(i = 0; i < length; i++)
  sum += //some operation depending on i here;

我不想只有 1 个线程执行此操作，而是希望有 n 个线程（n = 长度），最后有 1 个线程来计算总和。

在伪代码中，我希望能够编写如下内容：

int i = get_global_id(0);
__local float sum = 0;
sum += //some operation depending on i here;
barrier(CLK_LOCAL_MEM_FENCE);
if(i == 0)
  res = sum;

有办法吗？

我对总和有竞争条件。

为了让您开始，您可以执行如下示例所示的操作（见斯卡皮诺）。在这里，我们还通过使用 OpenCL float4 数据类型来利用矢量处理。

请记住，下面的内核返回许多部分总和：每个本地工作组一个，返回到主机。这意味着您必须通过将所有部分总和返回到主机来执行最终总和。这是因为（至少对于 OpenCL 1.2）不存在同步不同工作组中的工作项的屏障函数。

如果不希望在主机上对部分总和求和，则可以通过启动多个内核来解决此问题。这引入了一些内核调用开销，但在某些应用程序中，额外的损失是可以接受的或微不足道的。要在下面的示例中执行此操作，您需要修改主机代码以重复调用内核，然后包含在输出向量的数量低于本地大小后停止执行内核的逻辑（详细信息留给您或检查斯卡皮诺参考).

编辑：为输出添加了额外的内核参数。添加点积来对浮点 4 个向量求和。

__kernel void reduction_vector(__global float4* data,__local float4* partial_sums, __global float* output) 
{
    int lid = get_local_id(0);
    int group_size = get_local_size(0);
    partial_sums[lid] = data[get_global_id(0)];
    barrier(CLK_LOCAL_MEM_FENCE);

    for(int i = group_size/2; i>0; i >>= 1) {
        if(lid < i) {
            partial_sums[lid] += partial_sums[lid + i];
        }
        barrier(CLK_LOCAL_MEM_FENCE);
    }

    if(lid == 0) {
        output[get_group_id(0)] = dot(partial_sums[0], (float4)(1.0f));
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OpenCL 浮点数求和减少的相关文章

代码编译期间遇到警告消息“使用或覆盖已弃用的 API”

我编译了我的程序并收到以下错误我该如何解决呢 Note ClientThreadClients java uses or overrides a deprecated API Note Recompile with Xlint depre
Unity3d 中的多线程脚本调用

我试图在Unity3d中实现多线程脚本执行但是Unity库似乎没有提供方法我们必须使用Mono提供的System Threading 但他们提到 Unity Scripting 不是线程安全的我可以使用 System threadin
为什么一个线程会中断另一个线程[重复]

这个问题在这里已经有答案了在Java多线程应用程序中我们处理InterruptedThreadException 如果另一个线程中断当前线程则会抛出此异常现在当另一个线程知道它将导致异常时它可能想要中断当前线程的原因是什么很多
并发：C++11 内存模型中的原子性和易失性

全局变量在 2 个不同内核上的 2 个并发运行的线程之间共享线程对变量进行写入和读取对于原子变量一个线程可以读取过时的值吗每个核心可能在其缓存中具有共享变量的值并且当一个线程写入缓存中的其副本时不同核心上的另一个线程可能会从其自
Node.js 工作线程中的 I/O 性能

下面是一个工作线程示例在本地计算机上同步 I O 大约需要 600 毫秒 const fs require fs const isMainThread Worker parentPort workerData require worker
线程安全的get（访问器方法）

我目前正在使用以下代码对变量进行线程安全访问 int gnVariable void getVariableValue int pnValue acquireLock Acquires the protection mechanism pn
线程自身连接

我很怀疑当线程加入自身时会发生什么即线程自行调用 join 方法我没有收到任何错误样本 public class JoinItself extends Thread public void run System out printl
在不支持 CAS 操作的处理器上进行 CompareAndSet

今天我在一次采访中被问到下一个问题如果您在具有不支持 CAS 操作的处理器的机器上调用 AtomicLong 的compareAndSet 方法会发生什么情况您能否帮我解决这个问题并在可能的情况下提供一些全面描述的链接 From
线程池，C++

我正在使用 C 开发一个网络程序我想实现一个 pthread 池每当我从接收套接字接收到一个事件时我都会将数据放入线程池中的队列中我正在考虑创建 5 个独立的线程并将持续检查队列以查看是否有任何传入数据需要完成这是一个非常简单的
为什么在读取字典时要锁定

我对我正在阅读的一本关于线程的书 C 3 in a Nutshell 中的代码列表感到困惑在应用程序服务器中的线程安全主题中给出了以下代码作为 UserCache 的示例 static class UserCache static
使用 WF 的多线程应用程序的错误处理模式？

我正在写一个又长又详细的问题但只是放弃了它转而选择一个更简单的问题但我在这里找不到答案应用程序简要说明我有一个 WPF 应用程序它生成多个线程每个线程执行自己的 WF 处理线程和 WF 中的错误允许用户从 GUI 端进行交互
将数据从一个线程传递到另一个线程的最快可能方法

我正在使用增强spsc queue将我的东西从一个线程移动到另一个线程这是我的软件中的关键位置之一所以我想尽快完成它我写了这个测试程序 include
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
Android 为什么这不会抛出错误的线程异常？

我的印象是视图只能从主线程操作但是为什么这不会崩溃 public class MainActivity extends Activity TextView tv Override protected void onCreate Bund
终结器线程的范围是什么 - 每个应用程序域或每个进程？

根据我的所有阅读应该有一个 GC 线程来调用所有终结器现在的问题是这个一个线程的范围是什么每个进程或每个应用程序域因为域的整体目的是在一个进程空间中分离并创建独立的不同应用程序 I read here http dn cod
C# WinForms：使用一个或多个附加线程进行绘图。如何？

如果我有一张包含各种几何形式直线矩形圆形等的大图线程需要花费大量时间来绘制所有内容但在现实生活中一栋建筑是由不止一名工人建造的因此如果绘图是建筑物而线程是构建者则绘制速度会快得多但我想知道怎么做你能告诉我怎么做吗有
在 Python 中打印守护线程异常

Python 不会打印守护线程中引发的异常的回溯消息例如以下代码创建一个守护线程并在新线程中引发异常 def error raiser raise Exception import threading thread threading
Node.JS async.parallel 不会等到所有任务完成

我在用异步并行 https github com caolan async并行运行两个函数这些函数请求 RSS 源然后 RSS 提要被解析并添加到我的网页中但由于某种原因async parallel运行回调方法而不等待两个函数完成文
调用许多网络服务的最佳方式？

我有 30 家子公司每家都实施了他们的 Web 服务使用不同的技术我需要实现一个Web服务来聚合它们例如所有子公司的Web服务都有一个名为的Web方法GetUserPoint int nationalCode 我需要实现我的网络服
当底层连接是有状态时如何使用 Apache HttpClient？

我在谷歌上搜索了很多关于如何使用 HttpClient 进行多线程处理的信息他们中的大多数人建议使用 ThreadSafeClientConnManager 但我的应用程序必须登录某个主机登录表单页面以便 HttpClient 获得底

随机推荐

在 Swift 中输入文本字段中的货币格式

我正在尝试在用户输入时格式化 Swift 文本字段中的货币输入到目前为止我只能在用户输入完成后才能成功格式化 IBAction func editingEnded sender AnyObject let formatter NSNum
如何修复 Java 13 和 Spring 的 Maven 中不支持的类文件主要版本 57

我有这个错误如何修复它 Caused by java lang IllegalArgumentException Unsupported class file major version 57 我有这样的POM
Python检查网站是否存在

我想检查某个网站是否存在这就是我正在做的 user agent Mozilla 20 0 1 compatible MSIE 5 5 Windows NT headers User Agent user agent link http w
如何使用 PyQt 根据屏幕分辨率调整主窗口的大小

我有一个带有三个框架的主窗口顶部框架由页眉组成底部框架由页脚组成我设计它使用PyQt4设计师当我在笔记本电脑上运行它时窗口看起来很好屏幕分辨率为1920 1080 但是当我在其他分辨率上检查相同的内容时例如1600 900页脚
如何使用 Kivy (Python) 相机

我尝试使用 uix camera 小部件并从我的网络摄像头显示一些 Wideo 我查看了文档并尝试使用这个简单的代码但它只是向我显示一个白色屏幕没有任何视频我启用了播放我做错了什么也许存在一些有用的文档教程因为从官方文档中我了
在 ES6 中调用 import 后立即执行模块[重复]

这个问题在这里已经有答案了我正在 NodeJS 上做一些事情我正在使用importES6 语法中的关键字我想在调用它后立即执行我搜索了类似的想法来做到这一点但没有什么足够的帮助我想做的基本上是将以下代码从 CommonJS 转换
如何逃脱并进入scp

是的我确实意识到它已经被问过一千次如何逃脱spaces在 scp 中但我无法做到这一点 sign 如果该符号是目录名称的一部分 sorunome sorunome desktop tmp scp test txt bpi home so
获取循环时“异步事件循环已关闭”

当尝试运行文档中给出的 asyncio hello world 代码示例时 import asyncio async def hello world print Hello World loop asyncio get event loop
根据十六进制颜色获取最接近的颜色名称

我尝试根据给定的十六进制值获取最匹配的颜色名称例如如果我们有十六进制颜色 f00我们必须得到颜色名称red ff0000 gt red 000000 gt black ffff00 gt yellow 我目前使用编辑距离算法来获取最接近
jquery .show() 和 .hide() 在 safari 中不起作用 - 将微调器添加到

我有一些非常基本的代码用作网页的加载 gif 加载和内容容器位于我的基本模板中这 header a href class home Home a more html div img src static images Loading g

为什么一个 div 比多个具有相同内容的 span 长（仅在 Chrome 中）

我有两行 10000 个以等宽字体第一个将整行放在一个 div 中第二个由 1000 个跨度组成每个跨度有 10 个这是 JS 小提琴链接 https jsfiddle net fojp5e9z 2 这里有 5000 个字符结尾
透明活动是在主要活动之上开放的。如何在不超过主要活动的情况下打开它？

我正在构建一个将显示通知的应用程序单击通知时我想打开一个类似活动的透明对话框其中包含与该通知相关的选项我定义了一个透明活动并将其注册在这样的通知中 Intent notificationIntent new Intent conte
REST 与 JSON-RPC？ [关闭]

Closed 这个问题是基于意见的目前不接受答案我正在尝试在 REST 和 JSON RPC 之间进行选择来为 Web 应用程序开发 API 他们如何比较 2015 年更新我发现 REST 更容易开发和用于在 Web HTTP 上提供
何时使用 .length 与 .length() [重复]

这个问题在这里已经有答案了好的我有这个代码 public class Test public static void main String args String people Bob Billy Jim int sum 0 for
如何在wpf中设置内部TextBoxView的边距

我有一个情况我想最小化文本框的水平填充使用窥探我发现文本框由多个子控件组成其中之一是边距为 2 0 2 0 的 TextBoxView TextBoxView 是一个内部 wpf 组件没有公共 API 您将如何摆脱内部填充将外
方便的 F# 片段 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导已经有two 问题关于 F
文件中最长的行

我正在寻找一种简单的方法来查找文件中最长行的长度理想情况下它是一个简单的 bash shell 命令而不是脚本使用 wc GNU coreutils 7 4 wc L filename gives 101 filename
如何即时生成文件并在下载后将其删除？

这是我动态创建文件的函数当用户单击正确的链接时 app route survey
从哪里获取 JavaFX 源代码？

我读到几个月前 Oracle 同意将 JavaFX 开源我想参与开发过程但不知道从哪里获得开发资源我很感激一些帮助此致 David At http hg openjdk java net 搜索 openjfx 使用 master r
OpenCL 浮点数求和减少

我想对我的这段内核代码一维数据应用减少 local float sum 0 int i for i 0 i lt length i sum some operation depending on i here 我不想只有 1 个线程执行

OpenCL 浮点数求和减少

OpenCL 浮点数求和减少 的相关文章

随机推荐

热门标签

OpenCL 浮点数求和减少的相关文章