cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

2024-05-05

假设我有一个与设备关联的活动 CUDA 上下文i，我现在打电话cudaSetDevice(i)。会发生什么？ :

Nothing?
主上下文取代了堆栈顶部？
主上下文被压入堆栈？

事实上，这似乎是不一致的。我编写了这个程序，在具有单个设备的机器上运行：

#include <cuda.h>
#include <cuda_runtime_api.h>
#include <cassert>
#include <iostream>

int main()
{
        CUcontext ctx1, primary;
        cuInit(0);
        auto status = cuCtxCreate(&ctx1, 0, 0);
        assert (status == (CUresult) cudaSuccess);
        cuCtxPushCurrent(ctx1);
        status = cudaSetDevice(0);
        assert (status == cudaSuccess);
        void* ptr1;
        void* ptr2;
        cudaMalloc(&ptr1, 1024);
        assert (status == cudaSuccess);
        cuCtxGetCurrent(&primary);
        assert (status == (CUresult) cudaSuccess);
        assert(primary != ctx1);
        status = cuCtxPushCurrent(ctx1);
        assert (status == (CUresult) cudaSuccess);
        cudaMalloc(&ptr2, 1024);
        assert (status == (CUresult) cudaSuccess);
        cudaSetDevice(0);
        assert (status == (CUresult) cudaSuccess);
        int i = 0;
        while (true) {
                status = cuCtxPopCurrent(&primary);
                if (status != (CUresult) cudaSuccess) { break; }
                std::cout << "Next context on stack (" << i++ << ") is " << (void*) primary << '\n';
        }
}

我得到以下输出：

context ctx1 is 0x563ec6225e30
primary context is 0x563ec61f5490
Next context on stack (0) is 0x563ec61f5490
Next context on stack (1) is 0x563ec61f5490
Next context on stack(2) is 0x563ec6225e3

这似乎是一种行为有时替代品，以及有时 a push.

这是怎么回事？

TL;DR：根据您提供的代码，在您的特定用法的两种情况下，似乎cudaSetDevice()正在替换堆栈顶部的上下文。

让我们稍微修改一下您的代码，然后看看我们可以推断出代码中每个 API 调用对上下文堆栈的影响：

$ cat t1759.cu
#include <cuda.h>
#include <cuda_runtime_api.h>
#include <cassert>
#include <iostream>
void check(int j, CUcontext ctx1, CUcontext ctx2){
  CUcontext ctx0;
  int i = 0;
  while (true) {
                auto status = cuCtxPopCurrent(&ctx0);
                if (status != CUDA_SUCCESS) { break; }
                if (ctx0 == ctx1) std::cout << j << ":Next context on stack (" << i++ << ") is ctx1:" << (void*) ctx0 << '\n';
                else if (ctx0 == ctx2) std::cout << j << ":Next context on stack (" << i++ << ") is ctx2:" << (void*) ctx0 << '\n';
                else std::cout << j << ":Next context on stack (" << i++ << ") is unknown:" << (void*) ctx0 << '\n';
  }
}
void runtest(int i)
{
        CUcontext ctx1, primary = NULL;
        cuInit(0);
        auto dstatus = cuCtxCreate(&ctx1, 0, 0);    // checkpoint 1
        assert (dstatus == CUDA_SUCCESS);
        if (i == 1) {check(i,ctx1,primary); return;}// checkpoint 1
        dstatus = cuCtxPushCurrent(ctx1);           // checkpoint 2
        assert (dstatus == CUDA_SUCCESS);
        if (i == 2) {check(i,ctx1,primary); return;}// checkpoint 2
        auto rstatus = cudaSetDevice(0);            // checkpoint 3
        assert (rstatus == cudaSuccess);
        if (i == 3) {check(i,ctx1,primary); return;}// checkpoint 3
        void* ptr1;
        void* ptr2;
        rstatus = cudaMalloc(&ptr1, 1024);          // checkpoint 4
        assert (rstatus == cudaSuccess);
        if (i == 4) {check(i,ctx1,primary); return;}// checkpoint 4
        dstatus = cuCtxGetCurrent(&primary);        // checkpoint 5
        assert (dstatus == CUDA_SUCCESS);
        assert(primary != ctx1);
        if (i == 5) {check(i,ctx1,primary); return;}// checkpoint 5
        dstatus = cuCtxPushCurrent(ctx1);           // checkpoint 6
        assert (dstatus == CUDA_SUCCESS);
        if (i == 6) {check(i,ctx1,primary); return;}// checkpoint 6
        rstatus = cudaMalloc(&ptr2, 1024);          // checkpoint 7
        assert (rstatus == cudaSuccess);
        if (i == 7) {check(i,ctx1,primary); return;}// checkpoint 7
        rstatus = cudaSetDevice(0);                 // checkpoint 8
        assert (rstatus == cudaSuccess);
        if (i == 8) {check(i,ctx1,primary); return;}// checkpoint 8
        return;
}

int main(){
        for (int i = 1; i < 9; i++){
          cudaDeviceReset();
          runtest(i);}
}
$ nvcc -o t1759 t1759.cu -lcuda -std=c++11
$ ./t1759
1:Next context on stack (0) is ctx1:0x11087e0
2:Next context on stack (0) is ctx1:0x1741160
2:Next context on stack (1) is ctx1:0x1741160
3:Next context on stack (0) is unknown:0x10dc520
3:Next context on stack (1) is ctx1:0x1c5aa70
4:Next context on stack (0) is unknown:0x10dc520
4:Next context on stack (1) is ctx1:0x23eaa00
5:Next context on stack (0) is ctx2:0x10dc520
5:Next context on stack (1) is ctx1:0x32caf30
6:Next context on stack (0) is ctx1:0x3a44ed0
6:Next context on stack (1) is ctx2:0x10dc520
6:Next context on stack (2) is ctx1:0x3a44ed0
7:Next context on stack (0) is ctx1:0x41cfd90
7:Next context on stack (1) is ctx2:0x10dc520
7:Next context on stack (2) is ctx1:0x41cfd90
8:Next context on stack (0) is ctx2:0x10dc520
8:Next context on stack (1) is ctx2:0x10dc520
8:Next context on stack (2) is ctx1:0x4959c70
$

根据上述内容，当我们继续执行代码中的每个 API 调用时：

        auto dstatus = cuCtxCreate(&ctx1, 0, 0);    // checkpoint 1
1:Next context on stack (0) is ctx1:0x11087e0

如前所述，上下文创建还将新创建的上下文推送到堆栈上here https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__PRIMARY__CTX.html#group__CUDA__PRIMARY__CTX_1g9051f2d5c31501997a6cb0530290a300.

        dstatus = cuCtxPushCurrent(ctx1);           // checkpoint 2
2:Next context on stack (0) is ctx1:0x1741160
2:Next context on stack (1) is ctx1:0x1741160

毫不奇怪，将相同的上下文推入堆栈会为其创建另一个堆栈条目。

        auto rstatus = cudaSetDevice(0);            // checkpoint 3
3:Next context on stack (0) is unknown:0x10dc520
3:Next context on stack (1) is ctx1:0x1c5aa70

The cudaSetDevice()通话有replaced具有“未知”上下文的堆栈顶部。（目前尚不清楚，因为我们尚未检索“其他”上下文的句柄值）。

        rstatus = cudaMalloc(&ptr1, 1024);          // checkpoint 4
4:Next context on stack (0) is unknown:0x10dc520
4:Next context on stack (1) is ctx1:0x23eaa00

由于此调用，堆栈配置没有差异。

        dstatus = cuCtxGetCurrent(&primary);        // checkpoint 5
5:Next context on stack (0) is ctx2:0x10dc520
5:Next context on stack (1) is ctx1:0x32caf30

由于此调用，堆栈配置没有差异，但我们现在知道堆栈上下文的顶部是当前上下文（我们可以推测它是主上下文）。

        dstatus = cuCtxPushCurrent(ctx1);           // checkpoint 6
6:Next context on stack (0) is ctx1:0x3a44ed0
6:Next context on stack (1) is ctx2:0x10dc520
6:Next context on stack (2) is ctx1:0x3a44ed0

这里没有真正的惊喜。我们正在推动ctx1在堆栈上，因此堆栈有 3 个条目，第一个条目是驱动程序 API 创建的上下文，接下来的两个条目与步骤 5 中的堆栈配置相同，只是向下移动一个堆栈位置。

        rstatus = cudaMalloc(&ptr2, 1024);          // checkpoint 7
7:Next context on stack (0) is ctx1:0x41cfd90
7:Next context on stack (1) is ctx2:0x10dc520
7:Next context on stack (2) is ctx1:0x41cfd90

同样，此调用对堆栈配置没有影响。

        rstatus = cudaSetDevice(0);                 // checkpoint 8
8:Next context on stack (0) is ctx2:0x10dc520
8:Next context on stack (1) is ctx2:0x10dc520
8:Next context on stack (2) is ctx1:0x4959c70

我们再次看到这里的行为是cudaSetDevice()通话有replaced堆栈上下文的顶部与主上下文。

我从你的测试代码中得到的结论是我看到no的行为不一致cudaSetDevice()与代码中的各种运行时和驱动程序 API 调用混合时调用。

从我的角度来看，这种编程范式是疯狂的。我无法想象为什么你会想以这种方式混合驱动程序 API 和运行时 API 代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudacontext

cudadriver

cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？的相关文章

为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题

随机推荐

ruby - heroku：找不到命令

这个问题已经发布了但答案还没有起作用我应该顺便提一下我对红宝石完全陌生我在做教程时遇到了错误步骤如下 first app master gem install heroku I get Successfully installed
Laravel ErrorException：未定义的变量：\storage\framework\views\ 中的错误

我尝试使用 redis 队列来延迟发送邮件但每次都会收到错误 ErrorException 未定义的变量错误 C wamp64 www laravel boltra storage framework views c653bafa95f
可能的 PDOException 错误（MySQL 5）？

因此我正在为我的网络应用程序设置一个安装程序并具有数据库凭据的输入字段我的验证过程的一部分包括测试数据库连接使用 PHP 的 PDO 库如果连接失败我希望能够区分错误的密码错误的地址不存在的数据库名称等以便我可以引用表单上
使用 ProGuard 混淆 clojure uberjar

我想知道是否有人有使用 proguard 混淆他们的 leiningen 编译的 uberjar 的经验我已经尽力在谷歌上寻找解决方案但找不到真正的答案我想知道这是否可能我一直在尝试混淆默认的 lein 项目这是 core clj
如何检查 char 数组是否有空单元格以便我可以在其中打印 0？

Code public void placeO int xpos int ypos for int i 0 i lt 3 i for int j 0 j lt 3 j The line below does not work what ca
如果为 false，则停止在自定义验证器中执行

我有两个文本框作为 to date 和 from date 我比较两个文本框并获取值但它的执行在我想要停止的按钮的单击旁边进行因为如果 to date 小于起始日期则截止日期将变为空并且重点关注文本框不会转到的单击事件按钮 i us
从绝对路径加载类

我有一个类我想通过绝对路径加载该类但我收到 ClassNotFoundException 我经历过很多这样的线程发现从绝对路径加载类是不正确的 InputStream stream new Check getClass getReso
从非 Activity 类启动一个新 Activity

我想在非 Activity 类中启动一个新活动该活动实现DialogListener以下是我的代码 public class FacebookLoginDialog implements DialogListener Override p
将二维数组绑定到数据网格中

所以我的情况是我想从数据库中的两个字段填充一个二维数组我在为数组分配数据库字段值时遇到问题第二个是在数据网格中显示数组我已经编码了 dgv2 Datasource myArray 但它仍然返回错误消息这是我的代码 Dim msql
Mac上使用docker安装gitlab的权限问题

我正在尝试让 Gitlab 在本地运行但遇到了权限问题 cp cannot create regular file etc gitlab gitlab rb Permission denied 我正在运行的命令是 sudo docker
如何在 Android 中自定义进度条

我正在开发一个应用程序我想在其中展示ProgressBar 但我想替换默认的AndroidProgressBar 那么我该如何定制ProgressBar 我需要一些图形和动画吗我阅读了以下帖子但无法让它工作 Android自定义进度条
有没有办法从 ANSI 转义字符创建橙色？

我正在寻找一个控制代码来使用 ANSI 或其他标准在终端中创建橙色文本这可能吗我只看到黄色和红色可用并且我认为您不能将红色和黄色混合用于同一角色严格来说不 ANSI 从未标准化任何被称为橙色的东西对于终端的控制序列有些终端
为什么 CGPath 和 UIBezierPath 在 SpriteKit 中对“顺时针”的定义不同？

在 SpriteKit 中 clockwise方向相反UIBezierPath但不是为了CGPath 例如如果我有 do let path CGPathCreateMutable CGPathAddArc path nil 0 0 10
React router 如何点击查看详细组件

我有两个组件 Car 和 CarDetails 我想用超链接 link 来显示 cars 组件中的所有汽车当用户单击时它应该将 carid param s 传递给 CarDetails 组件 App js import React Co
Python Pandas - “loc”和“where”之间的区别？

只是对 where 的行为以及为什么要使用它而不是 loc 感到好奇如果我创建一个数据框 df pd DataFrame ID 1 2 3 4 5 6 7 8 9 10 Run Distance 234 35 77 787 243 543
Visual Studio中设置“目标框架”有什么作用

在 Visual Studio 中您可以为项目设置目标框架或多或少的常识是如果将目标框架设置为例如 NET 4 5 2 则应用程序在仅安装了 NET 4 5 1 的计算机上将无法运行第一个问题这是真的吗第二个问题该设置
该捆绑包在 Mac OS X 上无效

我在将应用程序上传到应用程序商店时遇到问题每次我将应用程序上传到苹果时它都会显示无效的二进制文件因此我尝试在 Xcode Organizer 中验证存档的应用程序但收到此错误该捆绑包无效 Apple 目前不接受使用此版本 SDK
根据给定的索引集获取参数包的子集

好吧这确实是一件困难的事情我希望能够通过在给定的一组有效索引处选择参数类型来获取参数包的子集然后使用该参数包作为函数的参数列表 IE template
React - Material-UI - 如何在react-hook-form中使用具有多个值的Select

我正在尝试使用 UI 材质Select里面有多个选项react hook form没有成功在尝试使用多种选项之前我已经完成了这项工作
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i

cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？ 的相关文章

随机推荐

热门标签

cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？的相关文章