有多少线程（或工作项）可以同时运行？

2024-02-24

我是 GPGPU 编程新手，正在研究 OpenCL 的 NVIDIA 实现。

我的问题是如何计算 GPU 设备的限制（线程数）。
据我了解，有许多工作组（相当于 CUDA 中的块），其中包含许多工作项（~ cuda 线程）。

如何获取我的卡上存在的工作组数量（并且可以同时运行）以及一个工作组上存在的工作项目数量？
CL_DEVICE_MAX_COMPUTE_UNITS 对应什么？
khronos 规范谈到了核心（“OpenCL 设备上的并行计算核心的数量。”）与我的显卡规范中给出的 CUDA 核心有什么区别。根据 NVIDIA 网站，在我的例子中，openCL 为 14 个核心，而我的 GeForce 8800 GT 有 112 个核心。
CL_DEVICE_MAX_WORK_GROUP_SIZE（在我的例子中为 512）是否对应于分配给特定工作组的工作项总数或可以在工作组中同时运行的工作项数量？

任何建议将不胜感激。

OpenCL标准没有指定OpenCL提供的抽象执行模型如何映射到硬件。您可以将任意数量的 T 个线程（工作项）排入队列，并提供工作组大小 (WG)，至少具有以下约束（有关详细信息，请参阅 OpenCL 规范 5.7.3 和 5.8）：

WG必须除T
WG 最多必须为DEVICE_MAX_WORK_GROUP_SIZE
WG 最多必须为KERNEL_WORK_GROUP_SIZE由返回GetKernelWorkGroupInfo;如果内核消耗大量资源，它可能小于设备最大工作组大小。

该实现管理硬件上内核的执行。单个工作组的所有线程必须调度在单个“多处理器”上，但单个多处理器可以同时管理多个工作组。

工作组内的线程以 32 个（NVIDIA warp）或 64 个（AMD wavefront）为一组执行。每个微架构都以不同的方式做到这一点。您可以在 NVIDIA 和 AMD 论坛以及每个供应商提供的各种文档中找到更多详细信息。

回答你的问题：线程数量没有限制。在现实世界中，您的问题受到输入/输出大小（即设备内存大小）的限制。要处理 4GB 的浮点缓冲区，您可以将 1G 线程入队，例如 WG=256。该设备必须在其少量（例如 2 到 40 个）多处理器上安排 4M 个工作组。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

GPGPU

有多少线程（或工作项）可以同时运行？的相关文章

使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新
并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen
OpenCL 内核是异步执行的吗？

对于 CUDA 我知道它们是在向默认流空流发出启动命令后异步执行的那么在 OpenCL 中又如何呢示例代码如下 cl context context cl device id device id cl int err cl kern
我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？

您是否建议阅读内核的 PTX 代码以进一步优化内核一个例子我读到可以从 PTX 代码中找出自动循环展开是否有效如果不是这种情况则必须在内核代码中手动展开循环 PTX 代码还有其他用例吗你查看过你的 PTX 代码吗在哪里可以找到
CMake找不到NVIDIA的opencl sdk

我刚刚安装了 NVIDIA CUDA 工具套件用它在 Windows 8 1 上开发 OpenCL 应用程序我遇到了一些问题 1 FinedOpenCl cmake 不起作用因为 Nvidia 工具包未设置 opencl dir cm
OpenCL：头文件的附加目录

OpenCL 规范中写道5 6 3 构建选项 5 6 3 1 预处理器选项 I dir Add the directory dir to the list of directories to be searched for header f
OpenCL 产生错误的计算

我一直尝试使用openCL做一些计算但结果不正确我输入了三个 float3 如下所示 300000 0 0 300000 300000 0 300000 300000 300000 进入这个内核 kernel void gravitat
OpenCL 编译器预处理定义？

我正在 Snow Leopard 上开发 OpenCL 代码并且了解 OpenCL 即时编译是由 Clang LLVM 完成的是否使用了 C 预处理器有没有办法使用编译器设置预处理定义存在哪些定义我希望代码知道它是为 CPU 还是
GPGPU：普通 PC 陷入困境的后果

我在一本书中读到在波前或扭曲中所有线程共享一个公共程序计数器那么它的后果是什么呢为什么这很重要 NVIDIA GPU 一次执行 32 个线程扭曲 AMD GPU 一次执行 64 个线程波前控制逻辑读取和数据路径的共享减少了面
合理化我的简单 OpenCL 内核中有关全局内存的情况

const char programSource kernel void vecAdd global int a global int b global int c int gid get global id 0 for int i 0 i
有适用于 mac os X 10.8 的 opencl 分析器吗？

我试图找到 OpenCL 内核中的瓶颈是否可以在 mac os X 上分析 OpenCL 程序我发现 gDebuggerhttp www gremedy com http www gremedy com 但需要 10 5 或 10 6
如何在 Docker 容器内运行 OpenCL + OpenGL？

目的是在 Docker 容器内运行 OpenCL OpenGL 互操作应用程序但我还没有成功 Intro 我有配备 NVidia 显卡的笔记本电脑因此我认为利用 NVidia Dockerfiles 1 2 将是一个很好的起点以下
OpenCL 在调用 clGetPlatformIDs 时崩溃

我是 OpenCL 新手在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
空的 openCL 程序抛出弃用警告

我下载了 AMD APP 3 0 SDK 一旦包含 include
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解
在 OpenCL 中将函数作为参数传递

是否可以在 OpenCL 1 2 中将函数指针传递给内核我知道可以用C实现但不知道如何在OpenCL的C中实现编辑我想做这篇文章中描述的同样的事情在 C 中如何将函数作为参数传递 https stackoverflow com q
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
在 open CL 中将结构数组传递给内核

你好我正在尝试在 open CL 中实现距离向量程序基本上我在将结构数组作为参数传递到内核时遇到问题我的结构定义是这样的 typedef struct int a nodes 4 node node srcA 为此分配内存后我使用此

随机推荐

PHP 和 Microsoft Access 数据库 - 连接和 CRUD

我没有访问经验如何使用和不使用更新插入删除选择语句 rs new com ADODB RecordSet PDO 如果您想使用 PHP 与 MS Access 数据库交互 PDO http php net manual en boo
为什么 jquery datepicker 不适用于文本区域而仅适用于输入

请帮助我我一无所知当我尝试打开 jquery UI 的日期选择器并将其附加到输入标记时它工作得很好但是当我尝试将它附加到文本区域时什么也没有发生 This will work
更改 NavigationItem 提示时出现奇怪的动画

我在故事板中添加了这些 ViewController 没有一个与自定义类相关一切都来自纯故事板 iOS7 上的 iPhone 模拟器上的视频 https vid me Nu9E 仅当在 iOS7 上使用 AutoLayout 时才会发生这
Ruby 维护哈希插入顺序

我正在寻找一种方法来维护我在 Ruby 中使用的哈希的插入顺序我的数据来自数据库并且已经按照我想要的方式分组排序但 Ruby 不保证在我的版本中保持哈希中的顺序1 8 4 有什么解决方法吗如果没有我可以创建自定义比较器吗这是哈
Google Play 开发者控制台 - 发生意外错误。请稍后再试

我正在尝试回复刚刚提供评分的用户但是从过去两周开始我遇到了此错误并且无法成功打开链接您是否遇到此错误或者我是唯一被 Google 瞄准的错误帮助我为用户提供所需的支持 2020 年 7 月后 Google 更新了 Play 控
jquery 拖出时从 droppable 中移除

我已经根据示例实现了 jQuery 的可拖放购物车演示 http jqueryui com droppable shopping cart 我希望能够删除 li 当您将其拖出 droppable 时从 droppable 中删除我认为这
网站管理员 API v3：使用批量请求获取servingLimitExceeded

我得到了servingLimitExceeded错误消息适用于批次内的结果但不适用于整个批次例如我可能会收到 100 条记录响应此错误然后它开始返回更多结果全部在一个批次内如果批次由 Google API 内部处理我该如何调整
指定 asp.net core 1.0 WebAPI.exe 应在 program.cs 中为 prod 和 dev 使用的 url（端口）

我在我的 asp net core 1 0 web api NET Framework program cs 中执行以下操作以指定我希望我的 web api exe 在哪个端口运行仅用于开发目的 public static void M
非静态初始化块的替代方案是什么？

我的项目有一些开发人员喜欢非静态初始化块是什么选择对此什么是downside这个替代方案我猜想初始化中的值构造函数为什么我们应该使用非初始化块首先在那里将 test 初始化为 new String 是没有意义的因为初始化块立
在android的应用程序菜单中隐藏一个应用程序

我是这个 Android 应用程序编程的新手我需要知道从应用程序菜单列表中禁用和隐藏一个应用程序不需要删除整个应用程序而是需要进行一些其他更改来隐藏和禁用菜单列表中的任何应用程序如果您希望隐藏您的应用程序您可以启用或禁用具有LAU
defaultLocale 未在 Next.js i18n 中保留默认语言

我试图在 Next js i18n 中设置我的默认语言但总是将 En 作为默认语言称为后备我也收到这个错误错误 formatjs intl 错误 MISSING DATA 缺少区域设置的区域设置数据 Intl NumberForma
为什么 Maven 尝试将我的代码编译为 -source 1.3？

我收到这个错误mvn e package在 Ubuntu 12 04 中 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 0 2 c
PEP 8：与 True 的比较应该是“if cond is True:”或“if cond:”

当我执行 np where temp True 时 PyCharm 会发出警告我的完整代码 from numpy import where array a array 0 4682 0 5318 b array 0 29828851 0
.htaccess 允许/拒绝 ip 使用 require apache 2.4

我的托管提供商最近将服务器更新为 Apache 2 4 并且通过 htacces 文件控制对特定文件夹的访问的规则不再适用于以下代码 Order Deny Allow Deny from All Allow from 123 123 123
Swift SpriteKit 在后台播放音频

我有一个需要在后台播放音频的应用程序使用 Swift 和 SpriteKit 以及 SKActions 可以实现这一点吗或者还有其他方法吗朝着正确的方向推动将会非常有帮助 SKAction与声音一起使用确实很容易但有时您可能想做更多
从 C++ Windows 应用商店应用程序使用 sqlite-winrt

我正在尝试使用sqlite winrt http sqlwinrt codeplex com 来自 Windows 应用商店 C 应用程序我想专门使用此包中的 Windows 运行时包装器而不是此包中的常规 C API http vis
不允许查询选项“格式”。要允许它，请在 EnableQueryAttribute 或 QueryValidationSettings 上设置“AllowedQueryOptions”属性

我的 Web API 控制器端点出现异常希望得到一些解决该问题的帮助故事是这样的在我的 Web API 项目中控制器公开以下端点我的 Kendo UI Datagrid 提出以下请求 http localhost 63865 ap
这个 PDO 的包装器是“好代码”吗？是否有任何潜在的问题？

我构建这个类是为了与 PDO 一起使用使 SQL 查询更容易并且不用担心这是我的想法它应该更像 DB 类扩展 PDO 吗查询方法是否太大是否应该将其拆分为被称为的私有方法这就是所谓的松耦合我检测 SELECT 查询的方法是
如何删除重复的行？

我需要从相当大的 SQL Server 表即 300 000 多行中删除重复行当然由于存在RowID身份字段 MyTable RowID int not null identity 1 1 primary key Col1 varc
有多少线程（或工作项）可以同时运行？

我是 GPGPU 编程新手正在研究 OpenCL 的 NVIDIA 实现我的问题是如何计算 GPU 设备的限制线程数据我了解有许多工作组相当于 CUDA 中的块其中包含许多工作项 cuda 线程如何获取我的卡上存在的工作组数

有多少线程（或工作项）可以同时运行？

有多少线程（或工作项）可以同时运行？ 的相关文章

随机推荐

热门标签

有多少线程（或工作项）可以同时运行？的相关文章