运行时 API 应用程序中的 cuda 上下文创建和资源关联

2024-04-26

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联？

我知道这是由驱动程序 API 在幕后完成的。但我想了解一下创作的时间线。

首先，我知道 cudaRegisterFatBinary 是第一个 cuda api 调用，它向运行时注册一个 fatbin 文件。接下来是一些cuda函数注册API，它们在驱动层中调用cuModuleLoad。但是，如果我的 Cuda 运行时 API 应用程序调用 cudaMalloc，如何向该函数提供与上下文关联的指针，我认为应该事先创建该上下文。如何获取已创建的上下文的句柄并将未来的运行时 API 调用与其关联？请揭开内部运作的神秘面纱。

引用 NVIDIA 的文档

CUDA 运行时 API 调用在 CUDA 驱动程序 API CUcontext 上运行，绑定到当前主机线程。

如果不存在绑定到当前的 CUDA Driver API CUcontext 调用 CUDA Runtime API 时的线程，需要 CUcontext 那么 CUDA Runtime 将隐式创建一个新的 CUcontext 在执行调用之前。

如果 CUDA 运行时创建 CUcontext，则 CUcontext 将是使用 CUDA Runtime API 指定的参数创建函数 cudaSetDevice、cudaSetValidDevices、cudaSetDeviceFlags、 cudaGLSetGLDevice、cudaD3D9SetDirect3DDevice、 cudaD3D10SetDirect3DDevice 和 cudaD3D11SetDirect3DDevice。注意如果这些函数在以下情况下将失败并显示 cudaErrorSetOnActiveProcess 当 CUcontext 绑定到当前主机线程时调用。

CUcontext 的生命周期由引用计数管理机制。 CUcontext的引用计数最初设置为0，并且通过 cuCtxAttach 递增并通过 cuCtxDetach 递减。

如果 CUcontext 是由 CUDA 运行时创建的，则 CUDA 运行时将减少函数中该 CUcontext 的引用计数 cudaThread退出。如果 CUcontext 是由 CUDA 驱动程序 API 创建的（或由 CUDA Runtime API 库的单独实例创建），那么 CUDA 运行时将不会增加或减少引用该 CUcontext 的计数。

所有 CUDA Runtime API 状态（例如，全局变量的地址和值）与其底层 CUcontext 一起移动。特别是，如果一个 CUcontext 从一个线程移动到另一个线程（使用 cuCtxPopCurrent 和 cuCtxPushCurrent) 那么所有 CUDA Runtime API 状态都将移动到那个线程也是如此。

但我不明白的是cuda运行时如何创建上下文？为此使用了哪些 API 调用？ nvcc 编译器是否插入一些 API 调用来在编译时执行此操作，还是完全在运行时完成？如果前者为真，那么哪些运行时 API 用于此上下文管理？后者是真的，具体是如何完成的？

如果上下文与主机线程关联，我们如何访问该上下文？它是否自动与线程处理的所有变量和指针引用相关联？

最终模块加载是如何在上下文中完成的？

CUDA 运行时维护要加载的模块的全局列表，并在每次将使用 CUDA 运行时的 DLL 或 .so 加载到进程中时添加到该列表中。但在创建设备之前，模块实际上并未加载。

上下文创建和初始化是由 CUDA 运行时“延迟”完成的——每次调用像 cudaMemcpy() 这样的函数时，它都会检查 CUDA 是否已初始化，如果没有，它会创建一个上下文（在先前由 cudaSetDevice() 指定的设备，或者如果从未调用 cudaSetDevice() 则为默认设备）并加载所有模块。从那时起，上下文就与该 CPU 线程关联，直到它被 cudaSetDevice() 更改为止。

您可以使用驱动程序 API 中的上下文/线程管理函数（例如 cuCtxPopCurrent()/cuCtxPushCurrent()）来使用来自不同线程的上下文。

您可以调用 cudaFree(0);强制进行这种惰性初始化。

我强烈建议在应用程序初始化时这样做，以避免竞争条件和未定义的行为。继续并尽早在您的应用程序中枚举并初始化设备；完成后，在 CUDA 4.0 中，您可以从任何 CPU 线程调用 cudaSetDevice()，它将选择由初始化代码创建的相应上下文。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudacontext

运行时 API 应用程序中的 cuda 上下文创建和资源关联的相关文章

优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
如何在 gitlab-ci docker 执行器中使用 cuda

我们正在使用 gitlab 持续集成来构建和测试我们的项目最近其中一个项目添加了 CUDA 的要求以启用 GPU 加速我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好所以我想以某种方式让 docker
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
Golang调用CUDA库

我正在尝试从 Go 代码中调用 CUDA 函数我有以下三个文件 test h int test add void test cu global void add int a int b int c c a b int test add v
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I

随机推荐

非活动状态下的 Spring Boot 堆使用情况

我在本地部署了一个非常简单的 spring boot 应用程序它只有一个类控制器差不多就这样了我注意到堆分配并不稳定并且有峰值和突然下降为什么会这样我没有对应用程序进行过一次调用 A view from VisualVM 事实
释放指针向量，但内存仍在使用中

我不知道下面的代码有什么问题我正在删除所有指针但是当我使用 top 命令查看内存时我可以看到仍然有大量内存分配给程序我在这里缺少一些东西来释放内存吗 include
重新加载 tslib 触摸屏校准

背景我正在开发一个基于 Qt 的大型 GUI 它处理与触摸屏的所有用户交互该程序的设计使得用户不需要访问命令提示符即可执行任何操作包括重新校准触摸屏我写了一个 tslib 的模仿品ts calibrate作为运行的实用程序QWidg
触发 Outlook 事件：更改签名

有谁知道是否可以在 Outlook 2016 中触发签名更改事件 IE 模拟点击签名如下图所示我正在尝试根据选择的发件人地址自动更改签名我可以捕获发件人地址更改如所回答here https stackoverflow com
Android 布局：运行第二次布局

我正在扩展 TextView 并加载自定义字体我在列表视图中使用这个自定义文本视图当我滚动列表时有时会收到以下调试消息布局期间 com sample CustomTextView 52afae4c V ED ID 0 27 27 4
在 R 中使用 tcltk 在弹出窗口（表格小部件）中显示数据 - 为什么它会删除最后一行数据？

我正在努力创建一个小部件来使用 tcl tk 在弹出窗口中查看表格我正在遵循这个例子 http r 789695 n4 nabble com Tck tk help td1837711 html http r 789695 n4 nabb
Laravel 中的下拉选择表单

我可以知道我的代码有什么问题吗我在数据库中注册了三个用户类型名称但是我的代码将导致三个下拉菜单每个菜单上都有单独的用户类型名称 foreach user types as usertype div class form group F
Julia 中的指针解引用（unsafe_load(ptr) 有效，但 unsafe_wrap(Array, ptr, 1) 段错误）

我正在尝试取消引用指针unsafe load and unsafe wrap 我发现unsafe load不过效果很好unsafe wrap如果取消引用指向可变结构的指针则会崩溃玩具示例 mutable struct Wrapper d
在Android中解析HTML

我正在尝试从网页解析 android 中的 HTML 由于该网页格式不正确我得到SAXException Android 有没有办法解析 HTML 我刚刚遇到这个问题我尝试了一些东西但决定使用JSoup http jsoup org
如何从文本文件读取数据并将其推回向量？

我有一个文本文件 test txt 它存储了我的数据如下所示每个分隔符字段之间有一个空格代码名称 Coy 045 Ted Coy1 054 Red Coy2 我如何从文件中读取这些数据并将其插入向量中 vector
GoogleCalendarAPI 接受/拒绝事件

我正在研究谷歌日历API并使用node js作为构建我的应用程序的平台我能够使用身份验证过程创建事件并使用身份验证时生成的访问令牌创建日历事件我的问题是假设如果我们有任何参加者参加活动并且我想使用参加者一方的日历 API 接受拒
android OkHttpClient请求错误

我正在尝试使用我的 Android 应用程序在 mysql 数据库中存储一些数据我正在使用 okhttp3 发送请求但在这一行出现错误 client newCall request execute 我在本地机器和在线上尝试过但它给了我
Unity 自定义检查器和子检查器

我正在Unity 2017 2 中开发一个小型ARPG 我尝试为我的游戏的能力蓝图类实现自定义编辑器基本上 AbilityBluePrint 包含在运行时生成能力所需的所有信息包括一个 Effect ScritpableObjects
在 SQL 数据库中，一对一关系何时应位于同一个表中，何时应位于不同的表中？

任何人都可以提供一些示例说明在 SQL 数据库中什么时候在同一个表上保留一对一关系是更好的选择而什么时候将它们放在单独的表上更有意义当您有多个实体它们都必须能够充当另一个实体的外键并且几个实体既有公共属性又有唯一属性并且您希
Emacs-helm 中的选项卡（任何内容）不会自动完成当前的最佳匹配

While trying to autocomplete a file e g to open a file with C x C f Emacs helm shows a list of possible candidates If I
Spring 3.1 中的默认配置文件

在我的应用程序中我有豆子注释 Profile prod and Profile demo 正如您可以猜到的那样第一个用于连接到生产数据库的 bean 第二个注释使用一些假数据库的 bean HashMap或其他使开发更快我想要的是默
Object.watch() 适用于所有浏览器？

请注意Object Watch https developer mozilla org en US docs Web JavaScript Reference Global Objects Object watch and Object O
根据.Net中的字段反序列化json（C#）

我正在编写一个应用程序它可以获取Json像这样的对象列表 ObjectType apple ObjectSize 35 ObjectCost 4 ObjectTaste good ObjectColor golden ObjectType
如何在 razor 中指定数据属性，例如 @this.Html.CheckBoxFor(...) 上的 data-externalid="23151"

this Html CheckBoxFor m gt m MyModel MyBoolProperty new class myCheckBox extraAttr 23521 使用 razor 我无法指定数据属性的值例如data ext
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a

运行时 API 应用程序中的 cuda 上下文创建和资源关联

运行时 API 应用程序中的 cuda 上下文创建和资源关联 的相关文章

随机推荐

热门标签

运行时 API 应用程序中的 cuda 上下文创建和资源关联的相关文章