在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？

2024-02-18

在 CUDA 中，可以使用以下方法展开循环#pragmaunroll 指令通过增加指令级并行性来提高性能。这#pragma可以选择后跟一个数字，指定必须展开循环的次数。

不幸的是，文档没有给出何时应使用该指令的具体指示。由于编译器已经展开了具有已知行程计数的小循环，因此应该#pragmaunroll 可以用在更大的循环上吗？在带有变量计数器的小循环上？那么可选的展开数量又如何呢？还有关于 cuda 特定循环展开的推荐文档吗？

没有任何快速且硬性的规则。 CUDA 编译器至少有两个展开器，一个位于 NVVM 或 Open64 前端，一个位于 PTXAS 后端。一般来说，他们倾向于非常积极地展开循环，所以我发现自己使用#pragma unroll 1（以防止展开）比任何其他展开属性更频繁。关闭循环展开的原因有两个：

(1) 当循环完全展开时，套准压力可以增加。例如，小型本地存储器数组的索引可能会成为编译时常量，从而允许编译器将本地数据放入寄存器中。完全展开还可能倾向于延长基本块，从而允许更积极地调度纹理和全局加载，这可能需要额外的临时变量并因此需要寄存器。寄存器压力增加可能会因寄存器溢出而导致性能下降。

(2) 部分展开的循环通常需要一定量的预计算和清理用于处理不完全是展开因子倍数的循环计数的代码。对于行程计数较短的循环，此开销可能会淹没从展开循环中获得的任何性能增益，从而导致展开后性能降低。虽然编译器包含用于在这些限制下查找合适循环的启发式方法，但启发式方法并不总是提供最佳决策。

在极少数情况下，我发现手动提供比编译器自动使用的展开因子更高的展开因子对性能有微小的有益影响（通常增益为个位数百分比）。这些通常是内存密集型代码的情况，其中较大的展开因子允许更积极地调度全局或纹理负载，或者非常严格的计算绑定循环，这得益于循环开销的最小化。

使用展开因素应该在优化过程的后期进行，因为编译器默认值涵盖了实践中会遇到的大多数情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？的相关文章

为什么在比较范围内的数字时会在汇编代码中发生分支？

我正在读书this https stackoverflow com questions 17095324 fastest way in c to determine if an integer is between two integers
如何使用 UIImagePickerController 呈现 ViewController

我试图提出一个ImagePicker 然后在用户选择图像后呈现图像编辑ViewController用户可以在其中操作图像然后将编辑后的图像发送回原始图像ViewController 问题是否有一种标准或最佳实践方法从初始 ViewCo
具有单变量优化的 NLopt

任何人都知道 NLopt 是否适用于单变量优化尝试运行以下代码 using NLopt function myfunc x grad x 2 end opt Opt LD MMA 1 min objective opt myfunc mi
排列 SSE __m128i 寄存器内的字节

我有以下问题 In m128i寄存器有 16 个 8bit 值顺序如下 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 我想要实现的是有效地洗牌字节以获得此排序 1 2 3 4 5 6 7 8 9 10 11
我可以让 C++ 编译器在编译时实例化对象吗？

我正在编写一些代码其中包含大量相当简单的对象我希望它们在编译时创建我认为编译器能够做到这一点但我无法弄清楚如何做到 In C我可以执行以下操作 include
预取双类成员需要转换为 char*？

我有一个正在使用的课程 mm prefetch 预先请求包含 double 类型的类成员的缓存行 class MyClass double getDouble return dbl other members double dbl othe
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
使用 PuLP 进行线性优化，变量附加条件

我必须用 Pull 解决 Python 中的整数线性优化问题我解决了基本问题现在我必须添加额外的约束有人可以帮助我用逻辑指示器添加条件吗逻辑限制是如果 A gt 20 则 B gt 5 这是我的代码 from pulp impor
取消的分支与常规分支有何不同？

特别是对于 SPARC Assembly 取消的分支与常规分支有何不同我一直认为当我需要填充分支指令的 nop 延迟槽时需要取消分支指令但是我认为我在这一部分上是不正确的因为您可以在不取消分支的情况下填充 nop 如果不采用分支
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
gcc总是做这种优化吗？（公共子表达式消除）

作为示例假设表达式sys gt pot atoms item gt P kind mass在循环内求值循环只改变item 因此表达式可以简化为atoms item gt P kind mass通过将变量定义为atoms sys gt p
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
有效地查找正则表达式的所有重叠匹配项

这是后续与 java 正则表达式匹配的所有重叠子字符串 https stackoverflow com q 11303309 244526 有没有办法让这段代码更快 public static void allMatches String
优化正则表达式来解析中文拼音[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个有
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
规范“毒”方式真的值得吗？（3NF）

我正处于数据库设计的早期阶段所以还没有最终的结果并且我正在为具有可选标签的线程使用 TOXI 3表设计但我忍不住觉得加入是并不是真的必要也许我只需要依赖我的简单标签列posts我可以在其中存储类似 varchar 的表
std::类似向量的类经过优化以容纳少量项目[重复]

这个问题在这里已经有答案了在程序的一个时间关键部分中有一个类成员如下所示 std vector m vLinks 在分析过程中我注意到该向量大约 99 98 的执行仅包含 0 或 1 个项目然而在极少数情况下它可能会容纳更多根
适用于多应用项目的 Grunt 和 requirejs 优化器

我在让 Grunt 对具有以下结构的项目执行 requirejs 优化时遇到问题 static js apps app js dash js news js many more app files build collections lib
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS

随机推荐

第一个元素偏移量

结构的第一个元素的偏移量为 0 是否是保证为了更准确让我们考虑一下 struct foo int a double b struct foo ptr malloc sizeof struct foo int int ptr ptr gt
您是否使用 TestInitialize 或测试类构造函数来准备每个测试？为什么？

这个问题涉及使用 MSTest 在 Visual Studio 中进行单元测试这很重要因为 MSTest 的执行顺序 http blogs msdn com nnaderi archive 2007 02 17 explaining e
如何修复轮询时的 Cucumber 期望错误？

我有帮手sign in登录用户我正在尝试使用一种新方法来确保用户使用轮询登录 def sign in user password 111111 click button sign in btn eventually 5 page shou
在plsql中编写函数

我正在查询数据库需要解析其中一个字段以获取特定值使用字符串函数所以我认为最好为其编写一个函数我以前从未在 plsql 中编写过函数所以我决定看一些示例我得到了一个简单的 square 函数的副本它接受一个数字并返回它的平方但
通过 DBRef 数组查找文档

解决方案可能就在我面前但我还没有找到它我的问题是我需要查找包含指定 DBRef 的所有文档这是要搜索的集合的结构 id ObjectId 4e2d4892580fd602eb000003 date added ISODate 2011
Ruby 有哪些 Python 没有的功能，反之亦然？

Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动关于 Python 与 Ruby 的讨论有很多我都发现它们完全没有帮助因为它们都围绕着为什
如何使用 Django / Python 从 RESTful Web 服务中使用 XML？

我应该使用 PyXML 还是标准库中的内容 ElementTree 作为标准 Python 库的一部分提供 ElementTree 是纯 python 而 cElementTree 是更快的 C 实现 Try to use the C im
如何在 WiX 片段中获得编辑注册表 CLSID 的提升权限

我正在尝试将 Windows 桌面搜索设置为使用系统默认过滤器 nlhtml dll 之外的不同 html 过滤器当我查找 PersistentHandler 时 HKEY LOCAL MACHINE SOFTWARE Classes h
ASP.NET Core MVC 视图组件

在 ASP NET Core MVC 以前称为 MVC 6 中有一个称为视图组件的新功能区域它似乎是部分视图的更好替代方案我看过以下内容查看组件示例 http www asp net vnext overview aspnet vne
在 AppDelegate 之外使用 NIB 创建 UITabBarController？

对于 iOS 编程来说我还是个新手尽管进行了大量的研究但我还是遇到了另一个障碍我想要实现的我想要一个当我从主 UI 导航时加载的 UITabBarController 我还想使用 NIB 来定义其属性我能找到的所有示例都将 UI
Gstreamer视频输出位置跟踪和寻找

我正在使用 gstreamer gst launch 捕获相机并将流保存为视频和图像帧管道的问题是当管道完成通过中断视频记录时它不能支持位置跟踪和查找因此视频在 vlc 播放器中播放长度未知我认为问题出在管道本身如何实现
支持内容脚本中的所有 google 域

我正在制作一个内容脚本对谷歌结果网页执行某些操作下面的行在manifest json无效匹配 https www google 由于清单 json 中的上述行而导致的错误是 content scripts 0 matches 0 的值
在EJB环境中是否有一些行为类似于.wait()和.notify()的东西？

我知道我不能修改 EJB 容器中的线程因此我不知道如何在 EJB 环境中以正确的方式执行以下操作涉及的有无状态会话 Bean 客户端无状态会话 Bean 服务器消息队列队列消息驱动 Bean Mdb 处理来自队列的消息 n
如何将资源编译到我的应用程序中并访问它们？

我怎样才能制作一个executable包含 DLL 和图像资源文件的软件包那么如何在运行时从可执行文件中提取它们呢使用 IDE 的选项 1 Delphi 2007 或更高版本您可以单击项目菜单然后选择资源您可以将任何文件加载
CodeMirror - 从编辑器外部获取 linting 结果

我正在使用非常棒的 CodeMirror 库我正在实例化的代码编辑器是表单的一部分因此我想使用 linting 进行基本检查以查看用户的输入是否有效除非代码没问题否则我不想处理表单所以问题是 CodeMirror 编辑器实例上是
GLKit 和向纹理添加色调

我在使用 GLKit 对 PNG 图像着色时遇到问题我有一个白色的 PNG 图像我将其加载到应用程序中然后用它来创建纹理 UIImage image UIImage imageNamed brushImage NSError erro
角度错误：StaticInjectorError（平台：核心）[e -> t]：

当我构建APK时 prod我收到以下错误 ERROR Error StaticInjectorError e gt t StaticInjectorError Platform core e gt t NullInjectorError N
有没有办法限制 javascript 性能来模拟缓慢的客户端

我正在开发一个使用 jQuery 的网站并且有大量使用 javascript 运行的网站 document ready 在我的开发机器上一切运行良好但它是一台非常强大的机器我收到过一些使用旧硬件的人的报告这些硬件的行为看起来很奇怪
包装类的声明[重复]

这个问题在这里已经有答案了这个问题是一个问题的延续如何使用来初始化字符串 https stackoverflow com questions 17489250 how can a string be initialized using
在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？

在 CUDA 中可以使用以下方法展开循环 pragmaunroll 指令通过增加指令级并行性来提高性能这 pragma可以选择后跟一个数字指定必须展开循环的次数不幸的是文档没有给出何时应使用该指令的具体指示由于编译器已经展开了具

在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？

在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？ 的相关文章

随机推荐

热门标签

在什么类型的循环中最好使用 CUDA 中的 #pragma unroll 指令？的相关文章