由于占用率低而导致 GPU 利用率不足是什么意思？

2024-01-18

我正在使用 NUMBA 和 cupy 来执行 GPU 编码。现在我已将代码从 V100 NVIDIA 卡切换到 A100，但是随后我收到以下警告：

NumbaPerformanceWarning：网格大小 (27)
NumbaPerformanceWarning：CUDA 内核中使用的主机数组将产生与设备之间的复制开销。

有谁知道这两个警告到底意味着什么？那我应该如何改进我的代码呢？

NumbaPerformanceWarning：网格大小 (27)

GPU 又细分为 SM。每个 SM 可以容纳一组线程块（这就像说它可以容纳一组线程）。为了“充分利用”GPU，您会希望每个 SM 都“满”，这大致意味着每个 SM 有足够的线程块来填充其线程补充。 A100 GPU 有 108 个 SM。如果您的内核在内核启动时的线程块（即网格）少于 108 个，那么您的内核将无法充分利用 GPU。有些短信将是空的。一个线程块不能同时驻留在 2 个或更多 SM 上。即使 108 个（每个 SM 一个）也可能不够。一个 A100 SM 可以容纳 2048 个线程，这至少是两个线程块，每个线程块有 1024 个线程。内核启动中任何少于 2*108 线程块的情况都可能无法充分利用 GPU。当您没有充分利用 GPU 时，您的性能可能不会那么好。

解决方案是在内核启动时公开足够的并行性（足够的线程），以完全“占用”或“利用”GPU。 216 个线程块（每个线程块有 1024 个线程）对于 A100 来说足够了。少一点可能就不会了。

为了进一步理解这里，我推荐前 4 部分这个课程 https://www.olcf.ornl.gov/cuda-training-series/.

NumbaPerformanceWarning：CUDA 内核中使用的主机数组将产生与设备之间的复制开销。

numba 内核启动的最酷的事情之一是我可以向它传递一个主机数据数组：

a = numpy.ones(32, dtype=numpy.int64)
my_kernel[blocks, threads](a)

numba 会“做正确的事”。在上面的例子中它将：

创建一个设备数组，用于存储a在设备内存中，我们称之为d_a
复制数据来自a to d_a（主机->设备）
启动你的内核，内核实际使用的地方d_a
当内核完成后，复制内容d_a回到a（设备->主机）

这一切都非常方便。但如果我做这样的事情怎么办：

a = numpy.ones(32, dtype=numpy.int64)
my_kernel1[blocks, threads](a)
my_kernel2[blocks, threads](a)

numba 将执行上述步骤 1-4 来启动my_kernel1然后执行步骤1-4again为推出my_kernel2。在大多数情况下，这可能不是您作为 numba cuda 程序员想要的。

这种情况下的解决方案是“控制”数据移动：

a = numpy.ones(32, dtype=numpy.int64)
d_a = numba.cuda.to_device(a)
my_kernel1[blocks, threads](d_a)
my_kernel2[blocks, threads](d_a)
a = d_a.to_host()

这消除了不必要的复制，并且在许多情况下通常会使您的程序运行得更快。（对于涉及单个内核启动的简单示例，可能没有什么区别。）

为了获得更多理解，可能可以使用任何在线教程，例如this one https://nyu-cds.github.io/python-numba/05-cuda/，或者只是 numba cuda 文档，将会很有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

由于占用率低而导致 GPU 利用率不足是什么意思？的相关文章

CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
不使用 Numpy 的矩阵求逆

我想在不使用的情况下反转矩阵numpy linalg inv 原因是我使用 Numba 来加速代码但不支持 numpy linalg inv 所以我想知道是否可以使用经典 Python 代码反转矩阵 With numpy linalg
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
如何将附加参数传递给 numba cfunc 作为 LowLevelCallable 传递给 scipy.integrate.quad

文档讨论 http numba pydata org numba doc 0 34 0 user cfunc html example使用 numba 的cfuncs as LowLevelCallable的论证scipy integrat
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1

随机推荐

如何在页面加载时直接使用 Javascript 在输入字段中填写数据？

这个问题似乎在 Stack Overflow 上被问了很多次但似乎没有一个解决方案有效我正在开发一个网络应用程序我必须在页面加载时在数据字段中填写数据这是我的代码
标准用户登录时启动管理交互进程

我有一个系统服务它以管理员身份创建一个辅助交互进程以便它可以访问一些与桌面相关的资源包括 BlockInput 函数和 NVIDIA 的 NVAPI 函数这些函数无法从服务运行当登录用户是管理员成员时以下操作有效设置权限级别
Azure 函数：值不能为空。参数名称：来源

最近当我调用 Azure 函数时每当我尝试向 AddGroup 函数发出 HTTP 请求时就会看到此异常它曾经有效直到我更新了一些 NuGet 包特别是 Newtonsoft JSON 11 0 2 当我在本地运行该函数时它工作
如何禁用 Android 中视图上的任何事件？

我的问题很简单如何禁用 Android 中视图上的任何事件包括消除它的聚焦能力就像我只是希望它在视觉上存在但在其他一切上都不存在它适用于整个视图树吗就像如果我禁用根上的事件则其子级的所有事件都将被禁用现在在你说任何话之前
将 ElasticSearch 的持久主机卷与 Docker-Compose 结合使用

使用以下命令运行 Elasticsearchdocker compose yml正在抛出一个错误 Java nio file AccessDeniedException usr share elasticsearch data nodes
Wix - 如何使用一个可执行文件安装多个 Windows 服务？

我正在尝试使用相同的可执行文件安装多个 Windows 服务但 WiX 不喜欢两个文件标记中的相同名称属性我尝试更改两个文件标签的名称它可以工作但我希望我不必为此目的安装两个相同的可执行文件有一个更好的方法吗到目前为止这是我的
Launch4j 中的异常

我的 build xml 中有以下说明但出现以下异常 launch4j net sf launch4j ExecException 执行失败 1 C Program 文件 Launch4j bin windres exe preproce
C#：专用模板方法 - 错误：类型“...”已定义具有相同参数类型的名为“...”的成员

我对 C 很陌生目前正在使用 EntityFramework 开发应用程序我想扩展数据库上下文类的功能以便我可以调用方法 getPool 以便它分发该类的相应 DbSet 成员我需要将它实现为模板因为稍后将从其他模板调用它这些模
GHC 外部 hs_init/hs_add_root 崩溃

不必要的我就不重复了简单总结一下继Adder本教程中的示例 http blogs msdn com b satnam singh archive 2011 04 19 creating a windows dll from a hask
Spring Boot 1.4.0：REST 控制器未将原因设置为 HTTP 响应

我有 2 个使用 Spring Tool Suite Spring Starter Project 创建的项目第一个项目 Spring Boot 1 3 7 发布 Web 第二个项目 Spring Boot 1 4 0 发布 Web 我更
为什么 ConcurrentBag 不实现 ICollection？

我有一个方法需要IList
使用 TinyXML 解析 XML 元素

更新仍然无法工作我已经更新了代码部分以反映我当前拥有的内容对于使用过 TinyXML 的人来说这应该是一个相当简单的问题我正在尝试使用 TinyXML 来解析 XML 文档并提取一些值我昨天弄清楚了如何在库中添加并且我已经成功
Ruby 1.9 中的自动加载是线程安全的吗？

在我看来自从 Ruby 社区开始对自动加载感到有点害怕这个著名的线程 http www ruby forum com topic 172385 出于线程安全原因不鼓励使用它有谁知道这在 Ruby 1 9 1 或 1 9 2 中是否不再是
使用 python 进行非线性回归 - 有什么简单的方法可以更好地拟合这些数据？

我有一些想要拟合的数据这样我就可以对给定特定温度的物理参数的值进行一些估计我使用 numpy polyfit 作为二次模型但拟合效果并不像我希望的那么好而且我在回归方面没有太多经验我已经包含了散点图和 numpy 提供的模型 S
MSVC++7.1 中的 ifstream.read() 与 ifstream.readsome()

我只是采用了在 Linux 下开发的文件阅读器的一些旧代码并尝试在使用 MSVC 7 1 编译的 Windows 项目中使用相同的代码代码编译没有任何问题但根据 Windows 上的文件阅读器该文件似乎是空的我跟踪问题到 ifst
Azure 流量管理器 SSL 设置（非经典）

我有一个 Azure API 应用服务我想为其配置优先流量管理这是新的流量管理器不是经典的我已将该服务部署到两个独立的 Azure 区域并配置了流量管理器实例以执行到两个服务实例的优先级路由这些服务具有以下自定义域配置 fo
在asp.net应用程序上显示sql数据库中存储的UTC时间的本地时间

我已经将时间以 utc 格式保存在 SQL 数据库中我在网格视图上显示这些时间但它们仍然是 UTC 格式我想将它们转换为客户端浏览器的本地时间问题是虽然我可以获得仅适用于当前日期时间的时区偏移量如果未来的某些日期最终发生在夏令
如何在 Angular 2 最终版本中编写 HTTP 模拟单元测试？

我已从 RC4 迁移到最终版本 2 1 0 并且正在重构我的单元测试以符合 2 1 0 语法除了 HTTP 模拟之外这很容易我找不到任何关于如何在 2 1 0 中模拟 HTTP 请求的示例这是一个 RC4 HTTP 单元测试我将如
使用 msbuild 从网站部署中排除文件

我有一个使用 msbuild 部署的网站项目在项目中有一些构建所需的文件和文件夹例如 web config 部分替换文件但我不想将其部署到目标站点我能想到的最好的办法是删除这些文件的构建后目标但我想知道是否有办法让这些文件不复制
由于占用率低而导致 GPU 利用率不足是什么意思？

我正在使用 NUMBA 和 cupy 来执行 GPU 编码现在我已将代码从 V100 NVIDIA 卡切换到 A100 但是随后我收到以下警告 NumbaPerformanceWarning 网格大小 27 NumbaPerformanc

由于占用率低而导致 GPU 利用率不足是什么意思？

由于占用率低而导致 GPU 利用率不足是什么意思？ 的相关文章

随机推荐

热门标签

由于占用率低而导致 GPU 利用率不足是什么意思？的相关文章