在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？

2024-03-06

当我们使用CUDA分析器nvvp，有几个与指令相关的“开销”，例如：

分支发散开销；
共享/全局内存重播开销；和
本地/全局缓存重播开销。

我的问题是：

是什么导致了这些开销？
它们是如何计算的？
同样，全局加载/存储效率是如何计算的？

附件：我在 CUDA 5 工具包中的“CUDA Profiler 用户指南”中找到了计算这些开销的所有公式。

您可以在这里找到您问题的一些答案：

为什么 CUDA Profiler 指示重放指令：82% != 全局重放 + 本地重放 + 共享重放？ https://stackoverflow.com/questions/7187489/why-does-cuda-profiler-indicate-replayed-instructions-82-global-replay-lo

重播指令 (%)这给出了百分比在内核执行期间重放指令。重播指令是指令数量之间的差异硬件实际发出的指令数由内核执行。理想情况下，该值应为零。这是计算公式为 100 *（发出的指令 - 执行的指令）/ 发出指示

全局内存回放 (%)重播指令的百分比由于全局内存访问而引起。计算公式为 100 * (l1 全局负载未命中）/发出指令

本地内存回放（%）导致指令重播的百分比由于本地内存访问。计算方法为 100 * (l1 local 加载未命中 + l1 本地存储未命中）/发出指令

共享银行冲突重播 (%)重播百分比由于共享内存库冲突而导致的指令。这是计算方式为 100 *（l1 共享冲突）/发出的指令

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

CUDA

overhead

gpusharedmemory

在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？的相关文章

我应该增强客户端上的 Jquery Mobile 元素还是发送带有 data-enhance="false" 的增强标记？

我有一个产品搜索我正在发送回结果每个结果都包含两个按钮 JQM 控制组我一次发送 24 条记录因此需要增强 24 个控制组如下所示 div class submitButton linkBox div
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
C# 的快速线程安全随机数生成器

我需要在多个正在运行的线程中快速生成随机浮点数我尝试过使用System Random 但它对于我的需求来说太慢了并且它在多个线程中返回相同的数字当我在单线程中运行应用程序时它工作正常此外我需要确保生成的数字在 0 到 100 之
jQuery .getJSON 与 .post 哪一个更快？

Using getJSON or post 我正在尝试通过仅用于 AJAX 请求的页面发送一些参数并获取 JSON 或 html 片段中的一些结果我想知道哪个更快假设 HTML 文件只是纯布尔文本 true 或 false 正如其他人
加快写入文件的速度

我已经分析了一些我用 cProfile 继承的遗留代码我已经做了很多有帮助的更改例如使用 simplejson 的 C 扩展基本上该脚本将数据从一个系统导出到 ASCII 固定宽度文件每一行都是一条记录并且有许多值每行有 71
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
有没有办法分析 WCF 应用程序的性能？

我们正在尝试测量我们的系统的性能该系统是一个使用 WCF 调用的 NET 3 5 应用程序问题是到目前为止我们无法分析这些调用中的方法编写了一个 winforms 客户端应用程序来测试我们的系统我们尝试使用ANTS 4 Profi
存储 PHP 数组的首选方法（json_encode 与序列化）

我需要将多维关联数据数组存储在平面文件中以进行缓存我偶尔可能会遇到需要将其转换为 JSON 以便在我的 Web 应用程序中使用的情况但绝大多数时候我会直接在 PHP 中使用该数组在此文本文件中将数组存储为 JSON 或 PHP 序列化
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
为什么 Java 11 中对于空白字符串 String.strip() 比 String.trim() 快 5 倍

我遇到过一个有趣的场景因为某些原因strip 针对空白字符串仅包含空格明显快于trim 在Java 11中基准 public class Test public static final String TEST STRING 3 w
优化数据可视化 Web 应用程序的性能

我正在重写 3 年前编写的数据可视化网络工具从那时起浏览器的 JavaScript 引擎变得更快所以我正在考虑将部分工作从服务器转移到客户端在页面上数据在表格和地图或图表中可视化它使用相同的数据但以不同的方式因此准备显示
在 C/C++ 中获得正模数的最快方法

通常在我的内部循环中我需要以环绕方式索引数组因此例如如果数组大小为 100 并且我的代码要求元素 2 则应该给它元素 98 高级语言例如 Python 可以简单地使用my array index array size 但由于某
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
Haskell：IORef 的性能

我一直在尝试在 Haskell 中编码一个需要使用大量可变引用的算法但与纯粹的惰性代码相比它也许并不奇怪非常慢考虑一个非常简单的例子 module Main where import Data IORef import Contr
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
哪些属性有助于运行时 .Net 性能？

我正在寻找可用于通过向加载器 JIT 编译器或 ngen 提供提示来确保 Net 应用程序获得最佳运行时性能的属性例如我们有可调试属性 http msdn microsoft com en us library k2wxda47 aspx

随机推荐

在 Android 中使用 Socialauth 集成 Linkedin 时出现问题

一年前我使用社交身份验证在我的 Android 应用程序中实现了 linkedin 集成直到几天前它都运行良好现在它给出以下错误 org brickred socialauth exception SocialAuthConfigur
“<>”的 SQL 运算符名称是什么？

我一头雾水谷歌没找到谁能告诉我什么是Sql lt gt 运营商名称 lt gt 不等于它等于
同时标记多个字符串

假设我有三个 C 风格的字符串 char buf 1 1024 char buf 2 1024 and char buf 3 1024 我想对它们进行标记并使用所有三个标记中的第一个标记执行操作然后对所有三个标记中的第二个标记执行相同的
最终静态变量与非最终静态变量？

有谁知道这两种方法的区别 public class SingleTone private static final instance new SingleTone private SingleTone public static Singl
在同一 POST 中上传图像和其他数据

我想使用 POST 方法上传图像我可以单独上传图片但我想将它们与我需要发送的其他数据一起发布到服务器任何人都可以帮我吗知道如何发帖这是我发送数据的代码除此之外我还需要发送图像 postString NSString strin
“不在”的 Lambda 表达式？

我有一个detailcollection每个细节都有的集合 code price name 和一个带有一些代码的字符串 string codes 1 2 3 我知道我可以使用得到一个数组string Split string codesar
将事件处理程序附加到 DOM 元素

我正在开发一款井字棋游戏该游戏即将完成我唯一想知道的是是否可以添加一个事件处理程序onclick从我的 js 文件中调用它而不是直接从 HTML 属性中调用它这是使用以下内容的 HTML 部分onclick div div div
将现有的云端硬盘文件复制到 appdata 文件夹中

我正在尝试使用新的应用数据 https developers google com drive appdata我希望创建用户选择的模板文件的副本而不是像示例代码所示创建新文件我的模板文件是保存在特定云端硬盘帐户中的 Google 可编辑
是否可以直接将仿射变换矩阵应用于 Mayavi ImageActor 对象？

我在用着Mayavi渲染一些由 3D 体积内的多个 2D 平面组成的成像数据其位置方向和比例由 4x4 刚体仿射变换矩阵定义每架飞机包括二维图像数据数组我使用它来显示mayavi mlab imshow 由我绘制的线和点组成的一组
nhibernate - 禁用一对多关系的子记录的自动\延迟加载

我想知道是否有一种方法可以禁用 nHibernate 中子记录的自动加载对于一个多个关系我们可以轻松地关闭属性上的延迟加载但我想要的是禁用任何类型的自动加载延迟加载和非延迟加载我只想通过查询加载数据即 HQL 或 Criter
如果值 =< 使用 jquery 或 PHP 的特定数字，我可以使表格单元格具有不同的背景颜色吗？

我有一个包含很多数字的 HTML 表格如果该单元格或列内的值等于或小于特定数字是否可以让表格单元格更改背景颜色例如如果单元格有没有办法让这个在现实中发挥作用 Erik 这是如何使用 JS Jquery 执行此操作的示例 You
Node.js puppeteer - 如何设置导航超时？

我正在使用 node js 和 puppeteer 来获取一些数据我打开的一些文件非常大然后我收到错误 Error our error TimeoutError Navigation Timeout Exceeded 30000ms e
向下滚动时隐藏 UiWebView 底部的工具栏

我有以下代码当底部工具栏不在网页视图顶部时可以成功隐藏底部工具栏如附图所示以下我想做的是完全隐藏工具栏然后展开网页视图以占用额外的空间类似于 Safari 的做法任何帮助都会很棒 void viewDidLoad super
通过 Selenium 与 IE 11 一起使用的正确 IEDriverServer 版本是什么

我刚刚更新到 Windows 10 x64 我的旧桌面有 IE 11 但版本较低因为它运行的是 Windows 7 我现在有以下 IE 版本 Version 11 648 17134 0 Update Versions 11 0 115
在 .properties 文件中添加注释

通过使用以下代码块build xml file
注释中带有 Immutable.js 数据结构的 JSDoc

我正在返回 Immutable jsList https facebook github io immutable js docs List来自函数的数据结构 PHPStorm 会自动附加以下内容 returns List
WINSDK：确定任意 pid 是否标识 Windows 上正在运行的进程

尝试实现一个穷人的测试以确定进程是否仍在运行本质上相当于简单的测试 kill pid 0 希望能够简单地打电话OpenProcess具有一些最小的所需访问权限然后测试GetLastError ERROR INVALID PARAMET
Android AbsListView$RecycleBin.addScrapView(AbsListView.java:6588)

所以我不明白为什么会出现这个错误 04 06 17 51 10 252 E AndroidRuntime 10745 致命异常主要 04 06 17 51 10 252 E AndroidRuntime 10745 进程 com stm
从 Docker 临时镜像构建 Rust 服务容器时出现问题

我有一个 Rust 二进制文件想在容器中运行当我使用时效果很好ubuntu甚至gcr io distroless cc作为基本图像但是当我尝试从scratch图像我遇到了一些问题这显然是因为某些文件预计位于不存在的文件系统上我能
在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？

当我们使用CUDA分析器nvvp 有几个与指令相关的开销例如分支发散开销共享全局内存重播开销和本地全局缓存重播开销我的问题是是什么导致了这些开销它们是如何计算的同样全局加载存储效率是如何计算的附件我在 CUD

在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？

在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？ 的相关文章

随机推荐

热门标签

在 CUDA 分析器 nvvp 中，“共享/全局内存重播开销”是什么意思？它是如何计算的？的相关文章