NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

2024-03-07

我的电脑有一块 GeForce GTX 960M，NVIDIA 声称它有 640 个 CUDA 核心。然而，当我运行 clGetDeviceInfo 来查找计算机中的计算单元数量时，它打印出 5（见下图）。听起来 CUDA 核心与 OpenCL 所认为的计算单元有些不同？或者一组 CUDA 核心组成一个 OpenCL 计算单元？你能向我解释一下吗？

NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

您的 GTX 960M 是一款 Maxwell 设备，具有 5 个流多处理器，每个处理器有 128 个 CUDA 核心，总共640 个 CUDA 核心 http://www.geforce.com/hardware/notebook-gpus/geforce-gtx-960m/specifications.

NVIDIA 流媒体多处理器相当于一个OpenCL计算单元 https://stackoverflow.com/questions/9326430/number-of-compute-units-corresponding-to-the-number-of-work-groups。之前链接的答案还将为您提供一些有用的信息，这些信息可能有助于解决评论中的内核大小问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？的相关文章

并行处理 - 池 - Python

我正在尝试学习如何在 Python 中使用多重处理我读到多重处理 http docs python org 2 library multiprocessing html 我尝试做这样的事情我有以下类部分代码它有一个生成 vorono
距离矩阵的并行构造

我对大量多维向量进行层次凝聚聚类我注意到最大的瓶颈是距离矩阵的构造此任务的简单实现如下此处使用 Python v an array N d where rows are the observations and columns the
是否可以使用多处理对一个 h5py 文件进行并行读取？

我正在尝试加快从 h5py 数据集文件中读取块将它们加载到 RAM 内存中的过程现在我尝试通过多处理库来做到这一点 pool mp Pool NUM PROCESSES gen pool imap loader indices 加载器
R 中 foreach() 内的 try() 问题

我正在尝试使用try 函数来处理并行 for 循环中发生的错误 results lt foreach i 1 2 errorhandling remove dopar res lt try myfun i TRUE with myfun l
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
并行解析器存在哪些概念或算法？

对于已经以分割格式给出的大量输入数据并行化解析器似乎很容易例如单个数据库条目的大列表或者很容易通过快速预处理步骤进行分割例如解析大型文本中句子的语法结构并行解析似乎有点困难它已经需要相当多的努力来定位给定输入中的子结构通用编程
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
杀死 OpenCL 内核

有没有办法通过 OpenCL API 终止正在运行的 OpenCL 内核我在规范中没有找到任何内容我能想到的唯一解决方案是 1 定期检查内核中主机希望内核停止时写入的标志或 2 在单独的进程中运行内核并终止整个进程我认为这两个都不是
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
使用监视器的单车道桥

在大学里我从 Gregory R Andrews Foundations of Multithreaded programming 中得到了这个规范的并行编程问题虽然我有这本书的较新版本和俄语版本但我发现了一个旧的英语变体并尝试正确传
在 OpenCL 内核中使用 _ 常量限定符

我在使用时遇到问题持续的我的 OpenCL 内核中的限定符我的平台是雪豹我尝试在 GPU 上初始化 CL 只读内存对象将常量数组从主机复制到其中然后我设置内核参数就像 global内存参数但这不起作用但我没有看到任何错误或警告
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
Julia：如何让多个工作人员访问模块中的函数？

我有以下测试模块 MyMod jl 来在 Julia 中存储一些测试函数一些核心函数是串行编写的其他函数并行调用核心函数 module MyMod export Dummy distribute data getfrom recombi
C++ OpenMP：嵌套循环，其中内部迭代器依赖于外部迭代器

考虑以下代码 include
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解

随机推荐

Spring 集成 TCP

我想设置 Spring TCP 服务器客户端应用程序我需要一个服务器侦听端口上的传入消息例如 6666 并且客户端在不同的端口上发送消息例如 7777 我已遵循文档 http docs spring io spring integra
在 cocoa/iPhone 中将纪元时间转换为 NSDate

我有纪元时间的值比如 123456789 现在我想将其转换为NSDate在可可框架中谁能告诉我吗 thanks 文档 http developer apple com iphone library documentation Cocoa
使用 Firestore，如何使用 java 类序列化文档中的引用类型字段？

如果我有一个包含引用类型字段的 Firestore 文档那么在使用自动 POJO Java 对象序列化时如何读取和写入该字段 POJO 类型字段文档参考 https firebase google com docs reference
WPF 相当于 TextRenderer

我用过TextRenderer测量字符串的长度从而适当调整控件的大小 WPF 中是否有等效项或者我可以简单地使用TextRendered MeasureString 谢谢纪修阅读您的链接后我想到了以下两个内容它们都适合我
Python将整列添加到csv文件中，而不读取文件内容

我需要使用 Python 将列添加到 csv 文件我能想到的唯一方法是读取整个文件编辑每一行以添加 1 个元素然后再次写入文件然而我真的不想这样做因为文件的大小超过 32000 行每次我想添加列时似乎需要大量的读写即使使用
如何从 fgets 中检测空字符串

我试图将 stdin 中的 fgets 输入检测为空当我按 Enter 键而不输入任何内容时这是我的程序 int main char input 1000 printf Enter fgets input 1000 stdin inpu
如何使用 box2d 在 libgdx 中拖动对象？

我已将对象添加到box2d世界在libgdx 我想知道是否可以用鼠标拖动对象如果是这样怎么办 thanks 这里有几个选项您可以使用鼠标关节也可以使用运动体并手动设置其位置看看如何使用鼠标关节的一个很好的例子 http code
图像作为绘制形状的“背景”

是否可以使用图像而不是颜色来填充 HTML5 画布上的形状我画了一堆形状各个角以 45 度角切掉的正方形我希望能够用图像而不是颜色来填充这些形状目前我有一行指出 context fillStyle 123456 example
如何使用 Meteor.js、Twitter 和 Oauth 发布推文

我在使用 Meteor 和 Twitter 时遇到了一些问题我想做的就是通过点击按钮发布一条推文为此我必须通过 Oauth 向 Twitter 服务验证自己的身份目前我正在以一种非常复杂的方式进行身份验证从客户端到服务器并返回
适用于 Android 的本机 OpenCV 示例抛出 UnsatisfiedLinkError

我尝试在模拟器上运行 opencv android 示例带有本机代码的示例例如示例教程 2 高级 1 添加本机 OpenCV 失败我有一个Win7 x86系统我可以构建本机库但如果运行示例我总是会遇到以下异常 10 04 08
每个线程组的概率

如果我的测试计划中有 3 个线程组如何为每个组设置恒定概率请求权重我是 JMeter 的新手您能在屏幕截图上显示您的设置吗只需将每组的线程数设置为测试总线程数的一个因子即可如果有 100 个 VU 则 g1 设置为 50 g2
我如何使用 iOS 中的 Fabric 框架从我的应用程序中注销 Twitter

在我的 iOS 应用程序中我使用集成 Twitter 登录织物框架 TWTR作曲家第一次登录并在 Twitter 上发布推文时它工作正常但我无法在我的应用程序中从 Twitter 注销当我第二次尝试登录时 twitterlogin
LINQ 和递归

考虑以下 public class Box public BoxSize Size get set public IEnumerable
无法在 django 模板中使用 unicode 字符串

我在 django 模板中使用了 B M N TO N 字符串它引发了错误 utf8 编解码器无法解码位置 569 中的字节 0xd4 无效的连续字节但是当我使用 BO MON TOAN 字符串时它不会引发错误所以我在模板中使用了
红宝石：能被4整除

这工作正常但我想让它更漂亮并容纳所有能被 4 整除的值 if i 4 i 8 i 12 i 16 i 20 i 24 i 28 i 32 end 有什么聪明简短的方法可以做到这一点吗尝试这个 if i 4 0 这被称为模运算符 h
对于 C++ 插件系统来说什么是安全的？

C 中的插件系统很困难因为 ABI 没有正确定义并且每个编译器或其版本都遵循自己的规则然而 Windows 上的 COM 表明创建一个最小的插件系统是可能的该系统允许具有不同编译器的程序员使用简单的接口为主机应用程序创建插件让
使用声明的可变基类无法在 MSVC 中编译

我正在尝试实现一个可变访问者类 template
如何以Python方式将 scipy.optimize.OptimizeResult 结果对象保存到文件中以便以后轻松访问？

从 scipy optimize OptimizeResult 保存结果对象的最佳方法是什么以便可以从保存的文件轻松访问其参数我目前正在将结果保存为字符串但这样当我需要再次引用它时我需要解析整个字符串来识别参数数组或函数值等对象
我可以欺骗 libc (GLIBC_2.13) 加载它没有的符号（来自 GLIBC_2.15）吗？

在我尝试让 Steam for Linux 在 Debian 上运行时我遇到了一个问题 libcef Chromium 嵌入式框架可以很好地工作GLIBC 2 13 Debian 测试中的eglibc 可以提供但是需要一个讨厌的额外功
NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

我的电脑有一块 GeForce GTX 960M NVIDIA 声称它有 640 个 CUDA 核心然而当我运行 clGetDeviceInfo 来查找计算机中的计算单元数量时它打印出 5 见下图听起来 CUDA 核心与 OpenC

NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？ 的相关文章

随机推荐

热门标签

NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？的相关文章