OpenCL 与 OpenMP 性能对比 [关闭]

2024-05-11

是否有研究比较 OpenCL 与 OpenMP 的性能？具体来说，我对使用 OpenCL 启动线程的开销成本感兴趣，例如，如果将域分解为大量单独的工作项（每个工作项由一个线程执行一项小工作），而 OpenMP 中的重量级线程则为该域被分解为子域，子域的数量等于核心的数量。

看来 OpenCL 编程模型更针对大规模并行芯片（例如 GPU），而不是具有更少但更强大内核的 CPU。

OpenCL 能否有效替代 OpenMP？

我见过的基准测试表明，在相同硬件上运行的 OpenCL 和 OpenMP 通常在性能上相当，或者 OpenMP 的性能稍好一些。然而，我还没有看到任何我认为具有决定性的基准，因为它们大多缺乏对其方法的详细解释。然而，有一些有用的事情需要考虑：

OpenCL 在运行时编译内核时总会有一些额外的开销。任何基准测试要么需要单独列出这个时间，要么使用预编译的本机内核，要么运行足够长的时间以使内核编译无关紧要。
OpenCL 的实现会有所不同。像 NVidia 这样的 GPU 供应商没有动力确保他们基于 CPU 的 OpenCL 实现尽可能快。没有一个 OpenCL 实现可能像良好的 OpenMP 实现一样成熟。
OpenCL 规范基本上没有提及基于 CPU 的实现如何在底层使用线程，因此任何关于线程是相对轻量级还是重量级的讨论都必然是特定于实现的。
当您在 CPU 上运行 OpenCL 代码时，您的工作项不必很小且数量众多。您可以按照与 OpenMP 相同的方式来分解问题。

即使 OpenCL 的开销更大，也可能有其他原因更喜欢它。

显然，如果您的代码可以充分利用 GPU，您将需要 OpenCL 实现。 CPU 上的 OpenCL 性能可能足够好，以至于不值得为没有强大 GPU 的用户维护 OpenMP 后备代码路径。
良好的基于 CPU 的 OpenCL 实现意味着您将自动受益于 CPU 和 OpenCL 实现支持的任何指令集扩展。使用 OpenMP，您必须做额外的工作以确保您的可执行文件包含 SSEx 和 AVX 代码路径。
OpenCL 向量原语可以帮助您表达一些显式并行性，而不会因使用 SSE 内在函数而牺牲可移植性和可读性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

GPGPU

OpenCL 与 OpenMP 性能对比 [关闭] 的相关文章

CUDA：是否可以将全部 48KB 片上内存用作共享内存？

我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序我的程序比典型的 CUDA 程序更占用
使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新
OpenGL-OpenCL 互操作传输时间 + 位图纹理

两部分问题我正在开展一个学校项目使用生命游戏作为实验 gpgpu 的工具我使用 OpenCL 和 OpenGL 进行实时可视化目标是让这个东西尽可能大更快经过分析我发现帧时间主要由 CL 获取和释放 GL 缓冲区决定并且时间
并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen
GPU 显存带宽理论与实际

作为在 GPU 上运行的算法分析的一部分我觉得我正在达到内存带宽的要求我有几个复杂的内核执行一些复杂的操作稀疏矩阵乘法归约等和一些非常简单的操作当我计算每个内核读取写入的总数据时似乎所有重要的都达到了约 79GB s 的
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
GPGPU：普通 PC 陷入困境的后果

我在一本书中读到在波前或扭曲中所有线程共享一个公共程序计数器那么它的后果是什么呢为什么这很重要 NVIDIA GPU 一次执行 32 个线程扭曲 AMD GPU 一次执行 64 个线程波前控制逻辑读取和数据路径的共享减少了面
合理化我的简单 OpenCL 内核中有关全局内存的情况

const char programSource kernel void vecAdd global int a global int b global int c int gid get global id 0 for int i 0 i
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

使用 OpenCL 进行简单的矩阵乘法 Multiply two matrices A B C include
在 Windows 8 (x64) 中安装期间出现 PyOpenCL“致命错误：CL/cl.h：没有此类文件或目录”错误

在大量搜索此问题的解决方案后我发现此特定错误尚未针对 Windows 正确记录所以我决定将这个问题与解决方案一起发布抱歉如果我将其发布在错误的部分我希望这个解决方案能够帮助用户解决未来 PyOpenCL 安装错误请注意此处使用
GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保
有适用于 mac os X 10.8 的 opencl 分析器吗？

我试图找到 OpenCL 内核中的瓶颈是否可以在 mac os X 上分析 OpenCL 程序我发现 gDebuggerhttp www gremedy com http www gremedy com 但需要 10 5 或 10 6
为什么那些 Google 图像处理示例 Renderscript 在 Nexus 5 的 GPU 上运行速度较慢

我要感谢斯蒂芬在上一篇文章中的快速回复这是这篇文章的后续问题为什么非常简单的 Renderscript 在 GPU 中的运行速度比在 CPU 中慢 3 倍 https stackoverflow com questions 2038169
为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

我试图了解 OpenCL 设备例如 GPU 的体系结构但我不明白为什么本地工作组中的工作项数量有明确的限制即常量 CL DEVICE MAX WORK GROUP SIZE 在我看来这应该由编译器处理即如果为简单起见一维内
如何处理 OpenGL ES 2.0 着色器中的 NaN 或 inf

这是基于以下问题在 OpenGL 着色器中检测 NaN 的最佳方法 https stackoverflow com questions 9446888 best way to detect nans in opengl shaders标准
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof

随机推荐

无法在 Android 中调整 Web 视图的大小

我正在尝试调整大小Web View在安卓中第一次单击时 Web 视图会扩展为新大小但第二次单击时它不会恢复为我指定的旧大小任何帮助表示赞赏 public class MainActivity extends Activity Rel
如何在 ListView 中的禁用项目之间添加分隔线？ - 棒棒糖

在禁用项目不可点击之间添加分隔线ListView http developer android com reference android widget ListView html对于 Lollipop 之前的 Android 我重写适
多语言网站的 .htaccess 规则

我正在重新设计 PHP 多语言网站 en es de fr ru 的 URL 该网站的 URL 是这样的 www mysite com page www mysite com page subpage1 www mysite com pag
css动画移动元素位置

我的 CSS 动画有这个问题我有一个元素位置绝对居中于页面中间当我放置动画时它会向右移动当动画完成时它会移回到页面中间这是代码 keyframes motto from opacity 0 transform translate
Android Studio 中的 Gradle 构建失败（无法从缓存中读取 testArtifacts.bin）

代码中没有错误但构建失败并出现以下错误 Error Could not read entry app packageDebug from cache taskArtifacts bin Users sibidharan Developer
iOS 中通过 USB 进行反向端口转发

我在桌面上有一个 Web 套接字服务器在 iPhone 设备上有一个客户端我想使用 USB 而不是任何网络与他们通信我已经使用 adb reverse 在 android 上实现了它但无法找到适用于 iOS 的任何解决方案我尝试使
使用 CSS 将 Div 分成 2 列

我一直在尝试使用 CSS 将 div 分成两列但我还没有设法让它工作我的基本结构如下 div div div div div div div div div div div div div div 如果我尝试将右侧和左侧 div 浮动到
使用 d3 进行多级/分组轴标签

我想知道是否有一种简单的方法可以在 d3 中添加多级分层分组轴标签例如如果我有一个折线图其中 x 轴的月份名称跨越多年那么我还希望将年份作为月份名称下方的标签因此它看起来像这样 Oct Nov Dec Jan Feb Mar
通过自定义文本更改库存文本中的 WooCommerce 产品可用性

我想更改库存数量后面的有库存文字我尝试在我的 WordPress php 编辑器中添加此 PHP 代码但它不起作用你知道为什么吗谢谢 add filter woocommerce get availability text bb
通过 id 从通用列表中删除对象

我有一个像这样的域类 public class DomainClass public virtual string name get set public virtual IList
有效，但未捕获引用错误：当我在控制台中键入数组时未定义数组

我用 js 制作了一个 Tic Tac Toe 游戏我有几个数组一个用于 html td 元素网格用于查看它们之前是否被点击过 boolGrid 还有一个用颜色检查结束条件 colorgrid 我使用 var 关键字及其内容在全局范
UIToolbar setBackgroundColor 没有完全改变颜色

我正在尝试设置 a 的背景颜色UIToolBar 我尝试从 IB 的属性检查器中选择颜色并尝试通过编程方式设置它setBackgroundColor UIColor 两种解决方案都有效但只是部分有效颜色与白色混合了大约 50 并且工具
WPF MVVM 在窗口关闭时调用 ViewModel Save 方法

我已经弄清楚如何从我的 ViewModel 关闭窗口现在我需要从另一侧解决窗口关闭问题当用户单击窗口的关闭按钮时我需要在 ViewModel 中触发 Save 方法我正在考虑将 Command 属性绑定到 Window 的关闭事件
*.default不是构造函数，带有导入的js插件

我尝试创建一个简单的表单验证并通过示例项目中的纱线链接注册它以测试设置但这绝对行不通我不知道如何继续 export default class Proofr constructor console log test 然后生成这个脚本
如果我只有 apk 文件，如何在 robotsium 中使用 R.id

我想测试来自游戏市场的应用程序当我尝试使用时遇到问题 solo clickOnView solo getView cn wps moffice eng R id writer edittoolbar saveBtn cn cn 无法解析为
ASP.NET 页面中的 WMV 文件

如何在 ASP NET 网页中嵌入 WMV 文件我希望它作为一个播放器可见而不仅仅是一个链接是否有 ASP NET 控件可以实现此目的我在 VS 2008 工具栏上没有看到这个在帮助中也找不到我还没有准备好将此网站转移到 Sil
如何将注销的用户重定向到 Java EE/JSF 中的主页？ [复制]

这个问题在这里已经有答案了我需要只允许登录用户访问我的应用程序的大部分页面我正在使用 JSF 2 开发 Java 企业应用程序有谁知道我该怎么做也许有一个配置文件我在主页中有一个登录组件我希望用户在单击页面上除少数项目之外的任何
使用 SP 包中的 SpatialPoints() 转换坐标参考系 (CRS) 以创建空间数据框

Issue 我有一个形状文件我已将其导入到 R 中并为正在进行的分析选择了感兴趣的变量我的最终目标是插值点数据海豚 ID 获取海面温度 SST 堆栈中每个单独的光栅文件的值70 栅格来自名为 ncin SST 的对象该对象是使用函数
区分 Web 路由调用与 API 路由调用？

In my web php文件中我有一条如下所示的路线 Route get HomeController getFeed 而在我的api php文件中我有一条如下所示的路线 Route get feeds HomeController
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解

OpenCL 与 OpenMP 性能对比 [关闭]

OpenCL 与 OpenMP 性能对比 [关闭] 的相关文章

随机推荐

热门标签