使用 OpenCL memset() GPU 缓冲区的最快方法是什么？

2023-11-22

我正在使用 OpenCL，我需要memset()全局设备内存中的某个数组。 CUDA 有一个memset()- 类似 API 函数，但 OpenCL 没有。我读this，我在那里找到了两种可能的替代方案：

using memset()在带有一些暂存缓冲区的主机上，然后clEnqueueWriteBuffer()将其复制到设备上的缓冲区。

将以下内核排队：

__kernel void memset_uint4(
    __global  uint4* mem,
    __private uint4  val) 
{
    mem[get_global_id(0)] = val; 
}

哪个更好？或者更确切地说，在什么情况下/对于哪些平台，一个比另一个更好？

Note:如果内存归零的特殊情况值得特殊对待，那么也很高兴知道这一点。

您可以使用clEnqueueFillBuffer()从 OpenCL v1.2 开始。这正是您所需要的。并且它在如何用模式填充缓冲区方面非常灵活。

如果您使用的是 1.1 或更低版本...那么您必须诉诸其他方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

opencl

memset

使用 OpenCL memset() GPU 缓冲区的最快方法是什么？的相关文章

字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
子查询与连接

我重构了从另一家公司继承的应用程序的一个缓慢部分以使用内部联接而不是子查询例如 WHERE id IN SELECT id FROM 重构后的查询运行速度提高了约 100 倍 50 秒到 0 3 我预计会有改进但谁能解释为什么它如此剧
有没有办法分析 WCF 应用程序的性能？

我们正在尝试测量我们的系统的性能该系统是一个使用 WCF 调用的 NET 3 5 应用程序问题是到目前为止我们无法分析这些调用中的方法编写了一个 winforms 客户端应用程序来测试我们的系统我们尝试使用ANTS 4 Profi
java charAt() 和startsWith() 哪个更快？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的问题是如果我想检查特定索引中字符串的一个字符仅检查一个字符哪种方法非常有效charAt or startsWith 我的意思是据我所
存储 PHP 数组的首选方法（json_encode 与序列化）

我需要将多维关联数据数组存储在平面文件中以进行缓存我偶尔可能会遇到需要将其转换为 JSON 以便在我的 Web 应用程序中使用的情况但绝大多数时候我会直接在 PHP 中使用该数组在此文本文件中将数组存储为 JSON 或 PHP 序列化
处理 C++ 中执行时间的大量分析

我目前正在进行一个科学计算项目涉及海量数据和复杂算法因此需要进行大量代码分析我目前依靠的是
循环内的局部变量会被垃圾收集吗？

我想知道将循环内引用的任何变量放在循环外是否更有效或者它们可以像函数内的变量一样被垃圾收集吗 var obj key val for var i 0 i lt 10 i console log obj or for var i 0 i l
抛出 Java 异常时是否会生成堆栈跟踪？

这是假设我们不调用 printstacktrace 方法只是抛出和捕获我们正在考虑这样做是为了解决一些性能瓶颈不堆栈跟踪是在构造异常对象时生成的而不是在抛出异常对象时生成的 Throwable 构造函数调用 fillInStack
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
在 2D int 向量上使用 std::fill

我试图将 2D 向量中所有元素的值设置为特定值据我所知不能像将 memset 用于数组那样将其用于向量因此我必须使用 std fill 将 2D 向量中的所有元素设置为特定值但是我知道如何对一维向量使用填充如下所示 vecto
在 OpenCL 中将函数作为参数传递

是否可以在 OpenCL 1 2 中将函数指针传递给内核我知道可以用C实现但不知道如何在OpenCL的C中实现编辑我想做这篇文章中描述的同样的事情在 C 中如何将函数作为参数传递 https stackoverflow com q
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Rails Windows Vagrant 响应时间非常慢

我在跑 Vagrant 1 7 1 Rails 4 1 4 Thin 1 6 1 Windows 7 每个静态文件的发送时间都超过一秒在我的 PC 上加载一个页面可能需要大约 20 秒而在同事的 Linux 机器上则只需瞬间有一些帖子
文件修改时间检查的成本

对于Linux下包含少量字节的文件我只需要处理自上次处理以来发生更改的时间我通过调用 PHP 检查文件是否被更改clearstatcache filemtime 定期由于整个文件总是很小因此删除对 filemtime 的调用并通过将
* 到底有多慢？

大家都表示选择器非常慢但它到底有多慢呢我总是试图避免它但有时它非常有用例如 h1 margin top 1em 简单来说通用选择器速度只与页面上的元素一样慢 Since 从右到左匹配浏览器获取每个元素并将其与所有候选规则进行匹
检查两个数是否是彼此的排列？

给定两个数字 a b 使得 1 例如 123 是 312 的有效排列我也不想对数字中的数字进行排序如果您指的是数字的字符例如 1927 和 9721 则至少有几种方法如果允许排序一种方法是简单地sprintf将它们放入两个缓冲
linux perf：如何解释和查找热点

我尝试了linux perf https perf wiki kernel org index php Main Page今天很实用但在解释其结果时遇到了困难我习惯了 valgrind 的 callgrind 这当然是与基于采样的 pe
如何提高包含大量小图像的 UCollectionView 的性能？

在我的 iOS 应用程序中我有UICollectionView显示大约 1200 个小 35x35 点图像图像存储在应用程序包中我正确地重用了UICollectionViewCell但仍然存在性能问题具体取决于我处理图像加载的方式
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排

随机推荐

有没有办法使用内存分配报告来分析 ruby 1.9.2 脚本？

我的 ruby 应用程序遇到了瓶颈但我不知道它在哪里变慢我找到了memprof 但它不支持1 9 我还发现 ruby prof 似乎在 1 9 2 上运行良好但内存分配需要修补 ruby 解释器并且我只能找到 ruby 1 8 的补
Spring多事务管理器、单事务

我有一个复杂的情况我必须使用 2 个不同的数据库因此我使用 2 个不同的事务管理器 Spring中有没有办法将这些事务管理器链接到单个事务中工作如果第二个数据源出现异常第一个数据源的更改应该回滚
vue代理设置不起作用

我有一个 Vue 项目 vue cli 3 x 我定义的代理package json基于本文不管用目标服务器看不到 API 请求我在这里缺少什么 vue 文件
xslt 仅在一个节点中将 \n 替换为
？

嘿我有一个节点其中包含一条消息例如 string1字符串2刺3 但是当它渲染时它会渲染所有一行我如何将所有 n 替换为 s 我试过了但我收到这个错误加载样式表时出错 XSLT XPath 函数无效我该怎么做呢在您要处理的
Android使用buildozer编译错误

我正在尝试编译一个 apk this one 使用构建器但我不断收到下面的命令失败消息我尝试过使用不同的 python 路径重新安装 buildozer 使用不同的 buildozer 路径从 Mac HD 编译使用 sudo 编
Eigen - 将常量数组映射到动态向量

我需要定义一个函数它需要constC 数组并将其映射到Eigen地图以下代码给我一个错误 double data 10 0 0 typedef Eigen Map
在 WebView Google Tv 应用上处理方向键上的箭头键

我已经构建了一个 Android 应用程序它在 WebView 中加载 html 页面并且工作正常除了应该在方向键上发生的操作不起作用这一事实如果我用其他键更改箭头的操作它就会起作用在 Web 浏览器中加载 html 页面工作正
如何将 HTML 输入值数据类型更改为整数？

我正在使用 jQuery 检索输入按钮提交的值该值应该是一个整数我想将其增加一并显示它 Getting immediate Voting Count down button id var countUp this closest li
Android 浏览器 - 当锚点聚焦时删除轮廓边框

我在我的 Android 应用程序上使用一个加载外部页面的 webview 它有一些锚点 a 标签当我按下它时会出现黄色边框我怎样才能防止它并删除这个边框我尝试过以下技巧 jQuery a focus function this a
在 Laravel 中创建可链接的方法

我一直在尝试在 laravel eloquent 中创建自己的可链接方法但我错过了一些东西并且不确定什么这听起来可能有点疯狂但请看一下我下面的函数以便更好地了解我想说的内容 class Post extends Eloquent
寻找对我的线程安全、无锁队列实现的批评

因此经过一番研究后我写了一个队列它使用固定大小的缓冲区因此它是一个循环队列它必须是线程安全的我已经尝试使其成为无锁的我想知道它出了什么问题因为这些事情我自己很难预测这是标题 template
如何从 jpeg 或 png 格式的字节数组在画布上绘制图像

就像标题所说我有一个表示图像内容的字节数组可以是 jpeg 或 png 我想将其绘制在常规画布对象上
Application.Run() 和 Form.ShowDialog() 有什么区别？

在我的应用程序中我想首先显示登录表单如果登录成功则显示主表单目前我正在做这样的事情 var A new LoginForm if A ShowDialog DialogResult OK Application Run new Mai
Django 表单错误。没有任何 html 标签时出现错误

我想在我的模板上获取非 html 版本的表单错误默认情况下错误被总结为 ul class errorlist 我想避免无论如何在不进行大量代码更改的情况下做到这一点 Django 1 7 中有两种新方法也可用于解决此问题 Form
使用“__import__”从字符串变量导入模块给出的结果与普通导入语句不同

我正在为嵌套 matplotlib MPL 库编写文档个人该库与 MPL 自己提供的文档不同由感兴趣的子模块包提供我正在编写 Python 脚本希望能够在未来的 MPL 版本中自动生成文档我选择了感兴趣的子模块包并希望列出它
如何使用Java.sql.Connection.setNetworkTimeout？

我遇到了 setNetworkTimeout 应该解决的确切问题Oracle 查询在 socket read 中卡住了几分钟但我不知道这个方法的第一个参数需要是什么提交 null 会导致 AbstractMethodError 异常所
将文本附加到输入字段

我需要将一些文本附加到输入字段 input field id val input field id val more text
每次运行应用程序时随机数生成器都会生成相同的数字[重复]

这个问题在这里已经有答案了我知道这个问题已经被多次提出但这些解决方案都不适合我首先我在我的方法中这样做了RandomNumGenerator items List
使一些 DataGrid 单元格跨越多列

好吧我已经搜索了很长时间来解决这个问题我正在为 WPF DataGrid 开发简单的打印系统并设法使用 DataTable 打印具有统一单元格放置的表格并将其设置为 DataGrid 的 ItemSource 然而我需要some行
使用 OpenCL memset() GPU 缓冲区的最快方法是什么？

我正在使用 OpenCL 我需要memset 全局设备内存中的某个数组 CUDA 有一个memset 类似 API 函数但 OpenCL 没有我读this 我在那里找到了两种可能的替代方案 using memset 在带有一些暂存缓冲区

使用 OpenCL memset() GPU 缓冲区的最快方法是什么？

使用 OpenCL memset() GPU 缓冲区的最快方法是什么？ 的相关文章

随机推荐

热门标签

使用 OpenCL memset() GPU 缓冲区的最快方法是什么？的相关文章