对浮点数求和的最佳 OpenCL 2 内核是什么？

2024-06-19

C++ 17引入了许多新算法来支持并行执行，特别是标准::减少 http://en.cppreference.com/w/cpp/algorithm/reduce是一个并行版本std::累积 http://en.cppreference.com/w/cpp/algorithm/accumulate这允许non-deterministic的行为non-commutative运算，例如浮点加法。我想使用 OpenCL 2 实现一个归约算法。

英特尔有一个例子here https://www.intel.com/content/dam/develop/external/us/en/documents/opencl-workgroupfunctions-531084.pdf它使用 OpenCL 2work group内核函数来实现std::exclusive_scan http://en.cppreference.com/w/cpp/algorithm/exclusive_scanOpenCL 2 内核。下面是内核对浮点数求和，基于 Intel 的exclusive_scan例子：

kernel void sum_float (global float* sum, global float* values)
{
  float sum_val = 0.0f;

  for (size_t i = 0u; i < get_num_groups(0); ++i)
  {
    size_t index = get_local_id(0) + i * get_enqueued_local_size(0);
    float value = work_group_reduce_add(values[index]);
    sum_val += work_group_broadcast(value, 0u);
  }

  sum[0] = sum_val;
}

上面的内核可以工作（或者看起来可以！）。然而，exclusive_scan需要的work_group_broadcast传递最后一个值 1 的函数work group到下一个，而这个内核只需要将work_group_reduce_add的结果添加到sum_val, so an atomic add更合适。

OpenCL 2 提供了atomic_int它支持atomic_fetch_add。上述使用atomic_int 的内核的整数版本是：

kernel void sum_int (global int* sum, global int* values)
{
  atomic_int sum_val;
  atomic_init(&sum_val, 0);

  for (size_t i = 0u; i < get_num_groups(0); ++i)
  {
    size_t index = get_local_id(0) + i * get_enqueued_local_size(0);
    int value = work_group_reduce_add(values[index]);
    atomic_fetch_add(&sum_val, value);
  }

  sum[0] = atomic_load(&sum_val);
}

OpenCL 2 还提供了atomic_float but it doesn't支持atomic_fetch_add.

实现 OpenCL2 内核对浮点数求和的最佳方法是什么？

kernel void sum_float (global float* sum, global float* values)
{
  float sum_val = 0.0f;

  for (size_t i = 0u; i < get_num_groups(0); ++i)
  {
    size_t index = get_local_id(0) + i * get_enqueued_local_size(0);
    float value = work_group_reduce_add(values[index]);
    sum_val += work_group_broadcast(value, 0u);
  }

  sum[0] = sum_val;
}

这有一个将数据写入 sum 的零索引元素的竞争条件，所有工作组都在执行相同的计算，这使得这个 O(N*N) 而不是 O(N) 并且需要超过 1100 毫秒才能完成 1M 元素数组和。

对于相同的 1-M 元素数组， this(global=1M, local=256)

kernel void sum_float2 (global float* sum, global float* values)
{
      float sum_partial = work_group_reduce_add(values[get_global_id(0)]);
      if(get_local_id(0)==0)
        sum[get_group_id(0)] = sum_partial; 
}

接下来是这个（全局=4k，本地=256）

kernel void sum_float3 (global float* sum, global float* values)
{
  float sum_partial = work_group_reduce_add(sum[get_global_id(0)]);
  if(get_local_id(0)==0)
    values[get_group_id(0)] = sum_partial; 
}

除了第三步之外，在几毫秒内完成同样的事情。第一个将每个组的总和放入其组 ID 相关项中，第二个内核将这些总和放入 16 个值中，这 16 个值可以很容易地由 CPU 求和（微秒或更短）（作为第三步）。

程序的工作原理如下：

values: 1.0 1.0 .... 1.0 1.0 
sum_float2
sum: 256.0 256.0 256.0
sum_float3
values: 65536.0 65536.0 .... 16 items total to be summed by cpu

如果你需要使用原子，你应该尽可能稀疏地使用。最简单的示例可以是使用局部原子对每个组的许多值进行求和，然后使用每个组的单个全局原子函数来执行最后一步来添加所有值。我现在还没有为 OpenCL 准备好 C++ 设置，但我猜当您使用 OpenCL 2.0 原子时会更好多个设备具有相同的内存资源（可能是流模式或SVM）和/或CPU使用 C++17 函数。如果您没有多个设备同时在同一区域进行计算，那么我认为这些新原子只能是在已经运行的 OpenCL 1.2 原子之上的微优化。我没有使用这些新的原子，所以对所有这些都持保留态度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对浮点数求和的最佳 OpenCL 2 内核是什么？的相关文章

std::cout 和 std::wcout 有什么区别？

在c 中有什么区别std cout and std wcout 它们都控制流缓冲区的输出或将内容打印到控制台或者它们只是相似吗它们作用于不同的字符类型 std cout uses char作为字符类型 std wcout uses w
Unix网络编程澄清

我正在翻阅这本经典书籍Unix网络编程 https rads stackoverflow com amzn click com 0139498761 当我偶然发现这个程序时第 6 8 节第 179 180 页 include unp h
为 Visual Studio 2013 编译 Tesseract

我正在尝试使用tesseract在 Visual Studio 2013 中我在链接器 gt 输入不是 libtesseract302 static lib 中使用 libtesseract302 lib 一切都正常并且已编译并运行
如何在 C# 中从 UNIX 纪元时间转换并考虑夏令时？

我有一个从 unix 纪元时间转换为 NET DateTime 值的函数 public static DateTime FromUnixEpochTime double unixTime DateTime d new DateTime 19
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
单元测试一起运行时失败，单独运行时通过

所以我的单元测试遇到了一些问题我不能只是将它们复制并粘贴到这里但我会尽力而为问题似乎是如果我一项一项地运行测试一切都会按预期进行但如果我告诉它一起运行测试则 1 5 将通过 TestMethod public void Obj
使用 C 语言使用 strftime() 获取缩写时区

我看过this https stackoverflow com questions 34408909 how to get abbreviated timezone and this https stackoverflow com ques
单击 form2 上的按钮触发 form 1 中的方法

我对 Windows 窗体很陌生我想知道是否可以通过单击表单 2 中的按钮来触发表单 1 中的方法我的表格 1 有一个组合框我的 Form 2 有一个保存按钮我想要实现的是当用户单击表单 2 中的保存时我需要检查表单 1
在一个字节中存储 4 个不同的值

我有一个任务要做但我不知道从哪里开始我不期待也绝对不想要代码中的答案我想要一些关于该怎么做的指导因为我感到有点失落将变量打包和解包到一个字节中您需要在一个字节中存储 4 个不同的值这些值为 NAME RANGE BITS en
如何使用 watin 中的 FileUploadDialogHandler 访问文件上传对话框

我正在使用 IE8 和 watin 并尝试通过我的网页测试上传文件我不能简单地使用 set 方法设置上传文件例如 ie FileUpload Find ById someId Set C Desktop image jpg 因为上传文本
上下文敏感与歧义

我对上下文敏感性和歧义如何相互影响感到困惑我认为正确的是歧义歧义语法会导致使用左推导或右推导构建多个解析树所有可能的语法都是二义性的语言是二义性语言例如 C 是一种不明确的语言因为 x y 总是可以表示两个不同的事物如下所述
如何编写一个同时需要请求和响应Dtos的ServiceStack插件

我需要提供本地化数据服务所有本地化的响应 Dto 都共享相同的属性 IE 我定义了一个接口 ILocalizedDto 来标记那些 Dto 在请求端有一个ILocalizedRequest对于需要本地化的请求 Using IPlugin
私有模板函数

我有一堂课 C h class C private template
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
如何从main方法调用业务对象类？

我已将代码分为业务对象访问层如下所示 void Main Business object public class ExpenseBO public void MakeExpense ExpensePayload payload var
如何对 Web Api 操作进行后调用？

我创建了一个 Web API 操作如下所示 HttpPost public void Load string siteName string providerName UserDetails userDetails implementat
(de)从 CSV 序列化为对象（或者最好是类型对象的列表）

我是一名 C 程序员试图学习 C 似乎有一些内置的对象序列化但我在这里有点不知所措我被要求将测试数据从 CSV 文件加载到对象集合中 CSV 比 xml 更受青睐因为它更简单且更易于人类阅读我们正在创建测试数据来运行单元测试该集
Server.MapPath - 给定的物理路径，预期的虚拟路径

我正在使用这行代码 var files Directory GetFiles Server MapPath E ftproot sales 在文件夹中查找文件但是我收到错误消息说给定物理路径但虚拟路径预期的我对在 C 中使用 Sys
Linq-to-entities，在一个查询中获取结果+行数

我已经看到了有关此事的多个问题但它们已经有 2 年或更长的历史了所以我想知道这方面是否有任何变化基本思想是填充网格视图并创建自定义分页所以我还需要结果和行数在 SQL 中这将类似于 SELECT COUNT id Id N
如何使用 Word Automation 获取页面范围

如何使用办公自动化找到 Microsoft Word 中第 n 页的范围似乎没有 getPageRange n 函数并且不清楚它们是如何划分的这就是您从 VBA 执行此操作的方法转换为 Matlab COM 调用应该相当简单 Pub

随机推荐

与 Ant 集成的 Junit 测试因 ClassNotFoundException 失败

我对我的项目进行了 JUnit 测试可以使用 Eclipse 正确运行所以现在我尝试将这些测试与 ant 任务集成为此我编写了以下 ant 脚本
如何隐藏 Swagger UI 中的模型部分？

I use 招摇的用户界面 https github com swagger api swagger ui显示API文档默认情况下它在底部显示模型部分如何隐藏它要隐藏模型部分请添加defaultModelsExpandDe
EF Core 2.1 启动缓慢

在获得了 EF6 的一些经验后例如this https stackoverflow com questions 48441674 extremely slow ef startup 15 minutes 我想尝试一下 EF Core 因为
Go 编程语言中的“方法需要指针接收器”

我刚刚看到了 Go 编程语言的演示并想尝试写几行一切工作正常直到我尝试在这种情况下使用界面我该如何解决这个问题 package main import fmt type entity float32 func e entity in
RSA SignatureException：签名长度不正确

我在签署 rsa 签名时遇到问题我有一个用私钥加密的签名然而当我尝试使用公钥验证它时遇到问题我得到以下异常 java security SignatureException Signature length not correct
初级 Java 计数器代码

我的教授希望我这样做使用下面的 Counter 接口写入多个可互换计数器 public interface Counter Current value of this counter int value Increment this co
Android 滚动视图无法以编程方式创建。

我想在我的应用程序中使用滚动视图我尝试将文本视图添加到滚动视图中但除了滚动视图的背景颜色之外我看不到任何渲染的内容我是这样做的 public class MyView extends ViewGroup ScrollView myS
get_video_info YouTube 端点突然返回 404 未找到

https www youtube com get video info video id videoId https www youtube com get video info video id 7BvideoId 7D正在投掷响应状
CSS 中 calc() 的结果是什么

我们现在已经开始使用calc 在CSS中用于设置计算结果的宽度例如 div div div div parent width 100px calcWidth width calc 100 3px height 100px backgro
内容交付的正确 DTAP 设置

我已经有了这个设置但似乎不太正确您将如何改进多个 NET 客户开发团队的内容交付 CD 开发 CMS 服务器 gt 演示服务器环境 CMS 制作 gt 实时和预览网站 CMS 组合测试验收内部称为分期 gt 上线分期 CMS
Camera2设置预览（View）并获取预览回调

我想从 Camera2 获取预览以及用于处理帧的 byte 回调 mImageReader ImageReader newInstance largest getWidth largest getHeight ImageFormat RAW
什么时候应该使用 C++ 而不是 SQL？

我是一名 C 程序员偶尔使用 MySQL 来处理数据库但我的 SQL 知识相当有限但我肯定愿意改变这一点目前我正在尝试仅使用 SQL 查询对数据库中的数据进行分析但我准备放弃了转而将数据导入到C 中用C 代码进行分析我和同
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
Lotus Notes/Domino 开发版本控制的最佳实践

请分享您如何对 Lotus Notes Domino 开发进行版本控制我想将所有脚本视图自定义表单脚本库等放入我们的 SVN 存储库中半自动方法也被接受即如果我找到一种方法来获取一个文件中表单的所有事件脚本并能够将其作为整个
对齐卡片视图中的项目

我希望我的卡片如下所示我保持这样的布局
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
如何以编程方式在 Android 中查找平板电脑或手机？

我的情况是手机和平板电脑的逻辑是相同的但布局上略有不同我尝试使用以下代码 public static boolean findoutDeviceType Context context return context getResour
使用 jQuery / .data() 避免内存泄漏

我正在使用 jQuery 动态创建 HTML 元素现在需要针对它们存储 JavaScript 数据但是我现在担心内存泄漏因为我实际上从未在对象上调用删除我 append 和 detach 它们但从不 remove jQuery
jQuery，获取一个元素的宽度并应用于另一个元素

有没有一种方法可以获取一个元素的宽度 container例如并将其应用到另一个 item例如我的布局是响应式的因此为什么我不能直接给出 item固定宽度值像这样 item width container width Demo gt h
对浮点数求和的最佳 OpenCL 2 内核是什么？

C 17引入了许多新算法来支持并行执行特别是标准减少 http en cppreference com w cpp algorithm reduce是一个并行版本std 累积 http en cppreference com w cpp

对浮点数求和的最佳 OpenCL 2 内核是什么？

对浮点数求和的最佳 OpenCL 2 内核是什么？ 的相关文章

随机推荐

热门标签

对浮点数求和的最佳 OpenCL 2 内核是什么？的相关文章