如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？

2023-12-13

我在 CUDA 中有 2 个相同的内核，报告理论占用率为 50%，并且可以同时运行。但是，在不同的流中调用它们会显示顺序执行。

每个内核调用的网格和块尺寸如下：

Grid(3, 568, 620)
Block(256, 1, 1 )
With 50 registers per thread.

这会导致每个 SM 的线程过多以及每个块的寄存器过多。

我应该将下一步的优化重点放在减少内核使用的寄存器数量上吗？

或者将网格分割成许多较小的网格是否有意义，从而可能允许发布两个内核并同时运行。每个块的寄存器数量仍然会造成问题吗？

Note- deviceQuery 报告：

MAX_REGISTERS_PER_BLOCK 65K
MAX_THREADS_PER_MULTIPROCESSOR 1024
NUMBER_OF_MULTIPROCESSORS 68

我在 CUDA 中有 2 个相同的内核，报告理论占用率为 50%...

...并且可以同时运行

这不是占用的含义，也是不正确的。

50% 的占用率并不意味着您有 50% 的未使用资源可供不同的内核同时使用。这意味着当运行最大理论并发扭曲数的 50% 时，您的代码耗尽了资源。如果您耗尽了资源，则无法再运行任何扭曲，无论它们来自该内核还是任何其他内核。

但是，在不同的流中调用它们会显示顺序执行。

由于上述原因，这正是应该预期的

每个内核调用的网格和块尺寸如下：

Grid(3, 568, 620)
Block(256, 1, 1 )
With 50 registers per thread.

您提供了一个启动 1041600 个块的内核。这比最大的 GPU 可以同时运行的数量级还要高出几个数量级，这意味着如此巨大的网格的并发内核执行范围基本上为零。

这会导致每个 SM 的线程过多以及每个块的寄存器过多。

寄存器压力可能是限制占用率的原因

我应该将下一步的优化重点放在减少内核使用的寄存器数量上吗？

鉴于并发内核执行的目标是不可能的，我认为目标应该是使该内核运行得尽可能快。如何做到这一点是特定于代码的。在某些情况下，寄存器优化可以提高占用率和性能，但有时发生的情况是溢出到本地内存，从而损害性能。

或者将网格分割成许多较小的网格是否有意义，从而可能允许发布两个内核并同时运行。

当您说“很多”时，您将暗示数千个网格，这将意味着如此多的启动和调度延迟，如果您能够设法达到可以并发内核执行的程度，我无法想象这样做有什么好处。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Optimization

CUDA

HPC

如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？的相关文章

设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
比较字符串结尾的最佳方法是使用 RIGHT、LIKE 还是其他？

我需要将字符串的结尾与存储过程中可能的结尾列表进行比较会被叫很多大概有10 15个候选结局此时仅使用代码的解决方案比创建专用于此的表更好类似的东西 IF ENDSWITH var foo OR ENDSWITH var bar O
如何通过点积获得峰值 CPU 性能？

Problem 我一直在研究 HPC 特别是使用矩阵乘法作为我的项目请参阅我的个人资料中的其他帖子我在这些方面取得了不错的成绩但还不够好我退后一步看看我在点积计算方面能做得如何点积与矩阵乘法点积更简单并且允许我测试 HPC
了解 Tensorflow 中的 while 循环

我正在使用用于 Tensorflow 的 Python API https www tensorflow org api docs python 我正在努力实施罗森布罗克函数 https www sfu ca ssurjano rosen
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
如何使用 #pragma 在 G++ 中启用优化

我想在没有命令行参数的情况下启用 g 优化我知道 GCC 可以通过写来做到这一点 pragma GCC optimize 2 在我的代码中但它似乎在 G 中不起作用此页面可能有帮助 http gcc gnu org onlinedoc
Python 中快速、小型且重复的矩阵乘法

我正在寻找一种使用 Python Cython Numpy 快速将许多 4x4 矩阵相乘的方法任何人都可以给出任何建议吗为了展示我当前的尝试我有一个需要计算的算法 A 1 A 2 A 3 A N 哪里每个 A i A j Python
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
使用列模数的更简洁方法

我目前有一个人员列表我已将其分为两列但在完成代码后我一直想知道是否有更有效或更干净的方法来完成同样的事情 echo table class area list tr Loop users within areas divided up
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
为什么 hibernate 在 SAVE 之前执行 SELECT？

为什么 hibernate 在保存对象之前要进行选择我在互联网上找不到有用的信息这是每次保存之前的正常行为吗我发现这个话题选择 hibernateTemplate save 的查询运行 https stackoverflow com
Scipy 最小化 fmin - 语法问题

我有一个函数它接受多个参数一个数组和两个浮点数并返回一个标量浮点数现在我想通过改变两个参数来最小化这个函数两个浮点数该数组在函数内部解包然后使用其内容数组和浮点数如何使用 SciPy 的 fmin 函数来完成此操作我
从 XML 构建树结构的速度很慢

我正在将 XML 文档解析为我自己的结构但对于大型输入来说构建它非常慢是否有更好的方法来做到这一点 public static DomTree
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
缩小 ASP.NET 生成的 Javascript 的最佳方法是什么？

在 ASP NET 3 5 运行时缩小 ASP NET 生成的 Javascript 例如由 webresource axd 提供的 Javascript 的最佳方法是什么我尝试使用Mb压缩 http mbcompression code
找到一系列间隔的最有效分组

我有一个应用程序其中有一系列不重叠的固定宽度间隔每个间隔都有一个给定的键每个间隔具有相同的宽度并且可以存在连续的间隔本质上我想以最小化单独间隔的数量的方式对间隔和键进行分组这可以通过合并具有相同键的连续间隔或查找匹配间隔并将它
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I

随机推荐

python 中的列表赋值

我有如下代码当我打印 list1 和 list2 时它显示相同的元素但我在将现有 list1 分配给 list2 之后添加了 9 因此它不应在 list2 中显示 9 list1 1 2 3 4 list2 list1 list1 i
在 OSX 上安装 SDL

我下载了SDL2 2 0 3 I ran configure make make install 我也尝试过brew install SDL2 这是我的 main c Using SDL and standard IO include
在Struts 2中引用fileUpload拦截器时出现404错误

我在用struts xml文件描述如下
get JSONException：解析 JSON 响应时，无法将 java.lang.String 类型的值转换为 JSONObject

我开发了一个 Android 应用程序它从服务器请求位置坐标该服务器以 JSON 格式响应目前它只发送两个位置这是来自服务器的 php 代码 place db gt getCoordinates name if place fals
通过 GET 或 POST 提交超链接

所以有这个超链接它很高兴成为一个超链接它不想更改为按钮或表单元素它想保留一个链接但如果我可以通过 GET 或 POST 提交它由于设计标准我在页面上切换的东西这对我确实有帮助有什么办法可以做到这一点谢谢贾尔斯您很幸运
bxslider 对于动态加载的内容无法正常工作

必须使用 bxslider 作为其中一个应用程序我在尝试通过 ajax 动态加载内容来实现 bxslider 时遇到一些问题它突然起作用有趣的是当通过打开开发工具或窗口大小更改来使视口发生轻微变化时它确实会发生变化有时有效只是想
iOS 10 中的 Whatsapp 集成和 openURL 问题

我已将 Whatsapp 集成到我的 iOS 应用程序中当我在我的 iOS 10 设备上测试它时它因问题而崩溃对尚未渲染的视图进行快照会产生空快照确保您的视图在快照之前或屏幕更新后的快照之前至少已渲染一次 NSURL whatsap
JavaScript 中的命名空间技术，推荐吗？表现出色？需要注意的问题？

In a project我正在努力构建我的代码如下 MyLib AField 0 ASubNamespace AnotherField value AClass function param this classField param th
在javascript中将iso日期转换为毫秒

我可以将 iso 日期转换为毫秒吗例如我想转换这个iso 2012 02 10T13 19 11 0000 到毫秒因为我想比较当前日期和创建日期创建日期是 iso 日期 Try this var date new Date 11 21
以最少的 malloc 调用次数为二维数组分配内存

我使用下面的代码片段使用最小数量为二维数组分配内存malloc calls 我想使用下标 p i j 访问数组 define ROW 3 define COL 2 int main void ptr malloc ROW COL sizeo
使用接近“INT_MAX”的“count”值传送数据

消息传递接口 API 始终使用int作为一个类型count变量例如原型为MPI Send is int MPI Send const void buf int count MPI Datatype datatype int dest i
防止向记分板提交欺诈性信息

我正在开发 Flash 游戏的后端我需要secure数据进入记分板该游戏将在许多网站上以横幅广告形式托管用户将在广告中玩游戏然后点击进入主网站以保存其详细信息目前我正在思考这个问题用户玩游戏并点击提交分数在后台横幅将分数和原
从扩展中禁用“wordBasedSuggestions”等默认设置

我正在开发 VSCode 的扩展它提供完成项但其中有单词建议我知道您可以在用户工作空间设置中禁用editor wordBasedSuggestions但是有没有办法从扩展中做到这一点是的扩展程序可以通过贡献来更改设置的默认值co
Sql where 子句在过滤器为空的情况下返回所有内容

我下面有一个 sql 表 SrNo Name Value 1 A X1 2 B NULL 3 C X3 4 D X4 5 E NULL 6 F NULL 我试图从表中获取所有记录并满足以下两个条件 a 如果 Value 列上的过滤器为 n
使用 core-plot 库创建 .ipa 时，xCode 4“找不到文件”

我的应用程序已准备好发布但无法创建所需的 ipa 我在一个非常小的例子中重现了我的问题 1 创建一个新项目我使用了导航栏应用程序 2 存档构建 3 分享 ipa 在指定位置创建 4 下载安装 core plot 5 使用方法2添加库
有没有办法从多个文件夹运行所有 pytest 用例？

假设我有test case1 py在文件夹中A and test case2 py在文件夹中B 我可以使用一个单一的来运行它们吗pytest命令文件夹结构 projectfolder A test case1 py projectfold
在 Facebook IOS SDK 中禁用单点登录 (SSO)

我们构建了一个使用 Facebook SDK 的 iOS 应用程序不幸的是我们的客户要求我们禁用应用程序中的后台这意味着 Facebook 单点登录 SSO 方案对我们不起作用因为我们的应用程序现在在登录授权后启动时从头开始在
jq - 如何根据属性值的“黑名单”选择对象

类似于这里回答的问题 jq 如何根据属性值的白名单选择对象我想根据属性值黑名单选择对象以下内容可以很好地作为白名单 curl s https api github com repos stedolan jq commits per
JQuery 表单提交添加请求标头

我想问一下调用前是否可以指定 headers myForm submit 我知道您可以在 AJAX post 请求中指定但是在提交这个简单的表单之前可以吗是的你可以需要一定的本土化JavaScript苦差事我就是这样做的 h1 Cu
如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？

我在 CUDA 中有 2 个相同的内核报告理论占用率为 50 并且可以同时运行但是在不同的流中调用它们会显示顺序执行每个内核调用的网格和块尺寸如下 Grid 3 568 620 Block 256 1 1 With 50 regis

如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？

如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？ 的相关文章

随机推荐

热门标签

如何优化2个相同的内核，占用率50%，可以在CUDA中同时运行？的相关文章