我的 GPU 上的总线程数、块数和网格数。

2023-12-12

For the NVIDIA GEFORCE 940mx GPU, Device Query shows it has 3 Multiprocessor and 128 cores for each MP.enter image description here

每个多处理器的线程数=2048

所以,3*2048=6144.ie。 GPU 共有 6144 个线程。

6144/1024=6,即。总共6块。经纱尺寸为 32。

但从这个视频来看https://www.youtube.com/watch?v=kzXjRFL-gjo我发现每个GPU对线程有限制,但对块数没有限制。

所以我对此感到困惑。我想知道

  1. 我的 GPU 中总共有多少个线程?我们可以使用所有线程吗 执行一个程序?
  2. 有多少个块和网格?

看来您感到困惑的主要根源是混淆了两组完全不同的限制:

  1. GPU 上可以同时运行的最大线程和块数。
  2. 可以为给定内核启动的最大线程和块数。

您引用的数字(每个多处理器 2048 个线程,总共三个多处理器 = 6144 个线程代表第一组限制。您在屏幕截图中显示的数字deviceQuery output:

  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)

定义给定内核启动的限制。虽然它们有些重叠,但您可以将它们或多或少地分开。有关内核启动参数和块尺寸的实用性的更全面讨论,请参阅here.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我的 GPU 上的总线程数、块数和网格数。 的相关文章

  • Nvidia Theano docker 镜像不可用

    尝试运行 docker 命令 nvidia docker run d p 8888 8888 e PASSWORD 123abcChangeThis theano secure start notebook sh Then open you
  • OpenCV GPU Farneback 光流在多线程中表现不佳

    我的应用程序使用 Opencv GPU 类gpu FarnebackOpticalFlow计算输入视频的一对连续帧之间的光流 为了加速该过程 我利用 OpenCV 的 TBB 支持在多线程中运行该方法 然而 多线程性能并不像单线程那样 为了
  • 为什么numba cuda调用几次后运行速度变慢?

    我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情 这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
  • CUDA Thrust 和 sort_by_key

    我正在寻找 CUDA 上的排序算法 它可以对元素数组 A 双精度 进行排序 并返回该数组 A 的键 B 数组 我知道sort by keyThrust 库中的函数 但我希望元素数组 A 保持不变 我能做些什么 我的代码是 void sort
  • MPI+CUDA 与纯 MPI 相比有何优势?

    加速应用程序的常用方法是使用 MPI 或更高级别的库 例如在幕后使用 MPI 的 PETSc 并行化应用程序 然而 现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃 更大的问题感兴
  • 如何在使用 GPU 支持编译的 macOS 上安装 Xgboost?

    我尝试在过去 3 天的 MacOS Mojave 10 14 6 上安装集成了 GPU 支持的 xgboost 但是没有成功 我尝试了两种方法 pip 安装 xgboost xgboost 安装在这里 并且在没有 GPU 选项的情况下成功运
  • 仅使用 CUDA 进行奇异值计算

    我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程 完整代码如下 include cuda runtime h include device launch parameters h include
  • 如何确定完整的 CUDA 版本 + 颠覆版本?

    Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用 但是 从 CUDA 11 1 开始 该文件不再存在 我如何在 Linux 上通过命令行确定并检查 path t
  • CUDA Visual Studio 2010 Express 构建错误

    我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程 我花了一段时间来设置环境 然后我刚刚编写了我的第一个程序 helloWorld cu 目前
  • DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

    我是 directx 的新手 但令我惊讶的是 我看到的大多数示例中 世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘 而不是与 CPU 相乘并将结果传递给着色器 对于刚性对象 这意味着您为对象的每个顶点将相同的两个矩阵相乘一次 我知道 GP
  • NvCplGetThermalSettings 返回 false

    问题 您好 我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度 我看过C 问题 他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案 因为 nivida 有完整的文档说明如何处理 API 见下
  • Cuda 6.5 找不到 - libGLU。 (在 ubuntu 14.04 64 位上)

    我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时 模拟 粒子 我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
  • 尝试构建我的 CUDA 程序时出现错误 MSB4062

    当我尝试构建我的第一个 GPU 程序时 出现以下错误 有什么建议可能会出什么问题吗 错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务 无法从程序集 C Program 加载 文件 M
  • 使用 CUDA 进行逐元素向量乘法

    我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量 向量乘法 内核代码插入如下 multiplyElementwise 它工作正常 但由于我注意到其他看似简单的操作 如缩放向量 在 CUBLAS 或 CULA 等库中进行了
  • cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用?

    假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部 主上下文被压入堆栈 事实上 这似乎是不一致的 我编写了这个程序 在具有单个设备的机器上运行 i
  • TensorRT 多线程

    我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它 其中 Cuda 上下文与所有线程一起使用 在单个线程中一切正常 我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
  • 有没有一种有效的方法来优化我的序列化代码?

    这个问题缺乏细节 因此 我决定创建另一个问题而不是编辑这个问题 新问题在这里 我可以并行化我的代码吗 还是不值得 https stackoverflow com questions 17937438 can i parallelize my
  • 超出 CreateConstantBufferView 处虚拟地址的末尾

    我正在遵循 使用 DirectX12 进行游戏编程 ch 6 代码 但在 ID3DDevice CreateConstantBufferView 中 我发现 D3D12 错误 D3D12 错误 ID3D12Device CreateCons
  • __device__ __constant__ 常量

    有什么区别吗 在 CUDA 程序中定义设备常量的最佳方法是什么 在 C 主机 设备程序中 如果我想将常量定义在设备常量内存中 我可以这样做 device constant float a 5 constant float a 5 问题 1
  • 如何为 CUDA 内核选择网格和块尺寸?

    这是一个关于如何确定CUDA网格 块和线程大小的问题 这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段 见下文 我

随机推荐

  • 使用 GDB Python API 从符号名称获取全局符号的地址

    如果我知道 GDB Python API 的名称 是否可以通过某种方式获取二进制文件中全局符号的地址 Is python print gdb parse and eval symbol address 获得这个值的正确方法是什么 好吧 你自
  • 使用ajax自动完成

    也许你可以帮助解决一些ajax问题 我有自动完成代码 我输入城市名称 代码会自动为我完成它 并且还获取城市 ID 并应该将其放入隐藏输入字段 名称 cityID 但它没有 不要那样做 你能告诉我为什么吗 html代码 p p
  • 将字符连接到字符串数组时获取“null”

    public static void main String args char charArr a b c d e f g h i String stringA charToString charArr for int i 0 i lt
  • 如何在我的连接类中使用“using”

    我想使用 using forSqlConnection在我的代码中是这样的 using SqlConnection Con new SqlConnection 但我用过dictionary对于一个内的多个连接Connections班级 这是
  • 自定义 Finder“获取信息”窗口?

    操作系统 在查找器中 如果您选择 获取信息 您会看到一个 属性窗口 引用当前选定的文件 文件夹 卷 默认情况下 该窗口包含 聚光灯评论 一般的 更多信息 名称和扩展名 预览 共享与权限 有人知道是否可以向该窗口添加分段吗 比如说我想添加一个
  • 比较两个相同大小的位图以确定它们是否相同的最快方法是什么?

    我正在尝试编写一个函数来确定两个相同大小的位图是否相同 我现在拥有的函数只是一次比较每个位图中的一个像素 在第一个不相等的像素处返回 false 虽然这很有效 并且适用于小位图 但在生产中我将在紧密循环中和更大的图像上使用它 所以我需要一种
  • 从 Java 字符串中删除行尾字符

    我有这样的字符串 hello java book 我要删除 r and n from String hello r njava r nbook 我想要的结果是 hellojavabook 我怎样才能做到这一点 带replaceAll 的正则
  • 在 listView 内的 listItem 内的 textView 上使用 setSelected

    我试图让滚动文本 选取框 发生在列表视图中 但从我之前的阅读来看 我似乎需要在文本视图上使用 setSelected true 因为textview位于listitem而不是listview内部 所以我似乎无法在该textView上使用ge
  • R 记录链接标识

    我正在 R 中使用 RecordLinkage 库 我有一个包含 id 姓名 电话 邮件的数据框 我的代码如下所示 ids data id pairs compare dedup data identity ids blockfld as
  • 当我发布 Web 应用程序时,我对隐藏代码所做的更改未更新

    我有一个在 VS2010 中构建的 ASP net 在 iis7 中运行 但是当我返回 VS 并更新文件后面的代码并重新发布该应用程序时 该应用程序的行为仍然与我进行更改之前一样 我已尝试删除并重新发布所有文件并重新启动应用程序池 但它仍然
  • Python TCP socket.recv() 一旦建立连接就什么也不返回

    我正在尝试实现最基本的 python TCP 服务器 Windows 8 Python 2 7 防火墙已关闭 代码来自这里 https wiki python org moin TcpCommunication 如果我做客户的事情 sock
  • 如何在 Chrome 中配置工作区?

    我正在尝试为我的本地项目激活工作区工具 当我在浏览器中编辑代码时 我想对代码应用 CSS 更改 我已将项目的文件夹 前缀 url 和路径添加到 Chrome 如下所示 但是当我将其更改为浏览器时 我的代码仍然没有任何变化 这是怎么回事 以下
  • NSURLSession/NSURLConnection HTTP 加载在子域上失败(kCFStreamErrorDomainSSL,-9802)?

    我们的应用程序在生产和开发环境中都运行良好 但在临时环境中我们遇到常见错误 NSURLSession NSURLConnection HTTP load failed kCFStreamErrorDomainSSL 9802 据我了解 当您
  • 返回按钮非常慢

    我有一个 Android 应用程序 其中 TabActivity 包含 4 个选项卡 一个列表视图 一个地图视图 另一个列表和一个 Web 视图 从列表视图中 我可以点击一个项目 它会启动另一个活动 按 返回 返回到选项卡活动 但是 访问地
  • 在 Android 上安装 Pocketsphinx

    我对在 Android 手机上安装 Pocketsphinx 有一些疑问 并且我无法在 CMUSphinx 的支持论坛 IRC 现有的 StackOverflow 帖子或大量的 Google 搜索上找到答案 如果这里有人愿意花一分钟时间并愿
  • 使用 Web API 时没有结果

    我正在尝试使用 PHP 从美国邮政服务 USPS 费率计算器中提取 XML 页面 这是我正在使用的代码 当然替换了我的 API 登录名和密码
  • 垂直自动滚动文本视图

    我只是想设置一个简单的 TextView 包裹在 ScrollView 中 它将自动向下滚动显示 TextView 的内容 就像电影显示片尾字幕一样 我不希望用户必须与滚动条交互 屏幕上没有我正在使用的按钮或其他布局 因此制作人员名单填满了
  • 尝试将文件上传到 CKAN 时出错:“无法获取存储上传凭据。上传无法继续”

    当尝试将文件上传到 CKAN 中的数据集时 我在 Web 界面中收到此错误 Failed to get credentials for storage upload Upload cannot proceed 此错误通常是由于 CKAN 的
  • LESS CSS 使用不同的前缀转义整个 CSS 规则?

    我如何避免以下情况 prefix rule prop webkit rule prop moz rule prop o rule prop ms rule prop rule prop 我尝试了很多不同的方法 将其包装在 stuff 将变量
  • 我的 GPU 上的总线程数、块数和网格数。

    For the NVIDIA GEFORCE 940mx GPU Device Query shows it has 3 Multiprocessor and 128 cores for each MP 每个多处理器的线程数 2048 所以