异常后重置 Cuda 上下文

2024-02-26

我有一个使用 Cuda / C++ 的工作应用程序，但有时，由于内存泄漏，会引发异常。我需要能够实时重置 GPU，我的应用程序是服务器，因此它必须保持可用。

我尝试过类似的方法，但似乎不起作用：

try
{
    // do process using GPU
}
catch (std::exception &e)
{
    // catching exception from cuda only

    cudaSetDevice(0);
    CUDA_RETURN_(cudaDeviceReset());
}

我的想法是每次 GPU 出现异常时重置设备，但我无法使其正常工作。 :( 顺便说一句，由于某些原因，我无法解决 Cuda 代码的所有问题，我需要一个临时解决方案。谢谢！

在发生不可恢复（“粘性”）CUDA 错误后恢复正确设备功能的唯一方法是终止主机进程引发（即发出导致）错误的 CUDA 运行时 API 调用。

因此，对于单进程应用程序，唯一的方法就是终止应用程序。

应该可以设计一个多进程应用程序，其中初始（“父”）进程使没有使用任何 CUDA，并生成一个使用 GPU 的子进程。当子进程遇到不可恢复的 CUDA 错误时，它必须终止。

父进程可以选择监视子进程。如果它确定子进程已终止，它可以重新生成该进程并恢复 CUDA 功能行为。

粘性错误与非粘性错误在其他地方有所介绍，例如here https://stackoverflow.com/questions/31642520/states-of-memory-data-after-cuda-exceptions/31642573#31642573.

一个正确的多进程应用程序的示例，例如使用fork()生成使用 CUDA 的子进程可在 CUDA 示例代码中找到simpleIPC。这是一个粗略的例子，由simpleIPC示例（对于 Linux）：

$ cat t477.cu
/*
 * Copyright 1993-2015 NVIDIA Corporation.  All rights reserved.
 *
 * Please refer to the NVIDIA end user license agreement (EULA) associated
 * with this source code for terms and conditions that govern your use of
 * this software. Any use, reproduction, disclosure, or distribution of
 * this software and related documentation outside the terms of the EULA
 * is strictly prohibited.
 *
 */

// Includes
#include <stdio.h>
#include <assert.h>

// CUDA runtime includes
#include <cuda_runtime_api.h>

// CUDA utilities and system includes
#include <helper_cuda.h>

#define MAX_DEVICES          1
#define PROCESSES_PER_DEVICE 1
#define DATA_BUF_SIZE        4096

#ifdef __linux
#include <unistd.h>
#include <sched.h>
#include <sys/mman.h>
#include <sys/wait.h>
#include <linux/version.h>

typedef struct ipcDevices_st
{
    int count;
    int results[MAX_DEVICES];
} ipcDevices_t;


// CUDA Kernel
__global__ void simpleKernel(int *dst, int *src, int num)
{
    // Dummy kernel
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    dst[idx] = src[idx] / num;
}


void runTest(int index, ipcDevices_t* s_devices)
{
    if (s_devices->results[0] == 0){
        simpleKernel<<<1,1>>>(NULL, NULL, 1);  // make a fault
        cudaDeviceSynchronize();
        s_devices->results[0] = 1;}
    else {
        int *d, *s;
        int n = 1;
        cudaMalloc(&d, n*sizeof(int));
        cudaMalloc(&s, n*sizeof(int));
        simpleKernel<<<1,1>>>(d, s, n);
        cudaError_t err = cudaDeviceSynchronize();
        if (err != cudaSuccess)
          s_devices->results[0] = 0;
        else
          s_devices->results[0] = 2;}
    cudaDeviceReset();
}
#endif

int main(int argc, char **argv)
{

    ipcDevices_t *s_devices = (ipcDevices_t *) mmap(NULL, sizeof(*s_devices),
                                                    PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, 0, 0);
    assert(MAP_FAILED != s_devices);

    // We can't initialize CUDA before fork() so we need to spawn a new process
    s_devices->count = 1;
    s_devices->results[0] = 0;

    printf("\nSpawning child process\n");
    int index = 0;

    pid_t pid = fork();

    printf("> Process %3d\n", pid);
    if (pid == 0) { // child process
    // launch our test
      runTest(index, s_devices);
    }
    // Cleanup and shutdown
    else { // parent process
            int status;
            waitpid(pid, &status, 0);
            if (s_devices->results[0] < 2) {
              printf("first process launch reported error: %d\n", s_devices->results[0]);
              printf("respawn\n");
              pid_t newpid = fork();
              if (newpid == 0) { // child process
                    // launch our test
                 runTest(index, s_devices);
                  }
    // Cleanup and shutdown
              else { // parent process
                int status;
                waitpid(newpid, &status, 0);
                if (s_devices->results[0] < 2)
                  printf("second process launch reported error: %d\n", s_devices->results[0]);
                else
                  printf("second process launch successful\n");
                }

            }

    }

    printf("\nShutting down...\n");

    exit(EXIT_SUCCESS);

}
$ nvcc -I/usr/local/cuda/samples/common/inc t477.cu -o t477
$ ./t477

Spawning child process
> Process 10841
> Process   0

Shutting down...
first process launch reported error: 1
respawn

Shutting down...
second process launch successful

Shutting down...
$

对于 Windows，唯一需要更改的应该是使用 Windows IPC 机制进行主机进程间通信。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Exception

CUDA

reset

cudacontext

异常后重置 Cuda 上下文的相关文章

System.DirectoryServices.Interop.UnsafeNativeMethods.IAds.GetInfo() 处的 FileNotFoundException

我有这行简单的代码 var entry new DirectoryEntry WinNT DOMAIN MachineName Computer Console WriteLine entry Guid 实际上路径是由命令行提供的这个简
HtmlAgilityPack 有属性吗？

我想做的就是 node Attributes class Value 但如果节点没有class属性就崩溃了所以我必须先检查它是否存在对吧我怎么做 Attributes不是一个字典它是一个包含内部字典的列表并且没有 HasAtt
如何有效地合并两个 BST？

如何合并两个二叉搜索树并保持BST的性质如果我们决定从树中取出每个元素并将其插入到另一个元素中则此方法的复杂度将为O n1 log n2 where n1是树的节点数比如T1 我们已经拆分了并且n2是另一棵树的节点数比如T2 执行
Unity3D 不安全代码需要指定“unsafe”命令行选项

我在用Unity3D 4 3并打电话给DLL我创造的当尝试调用它唯一的函数时这是 void GetModelReferences int nVertices float vertices int nTriangles int trian
查询父实体时导航属性为空

下面是我的域实体的基类 public interface IBaseEntity public int Id get set public DateTime CreatedDate get set public DateTime Updat
PrimaryContext如何登录域服务器

我有以下 C 代码用于连接到我的域服务器并对其执行一些操作我的计算机上一切正常我可以正常运行所有命令我的问题是连接服务器使用什么凭据我假设它使用当前用户的凭据所以我真正的问题是这对普通用户有效吗我是管理员它在我的机器上运行
在 C++11 中处理毫秒的正确方法是什么

我正在尝试将项目的基本开发库从 C 98 更新到 C 11 dev库中有很多关于时间的函数比如 uint64 t getCurrentMSTime struct timeval stv gettimeofday stv NULL uin
Task.Run 如何受 CPU 内核限制？

为什么下面的程序只会运行有限数量的阻塞任务限制数量似乎是机器上的核心数量最初当我写这篇文章时我希望看到以下内容作业 1 24 的作业完成输出 2秒的间隙工作产出 25 48 然而输出是作业 1 4 的作业完成输出然后每隔
在c#中初始化多维数组（与其他数组）

在 C 中可以使用常量初始化多维数组如下所示 Object twodArray new Object 00 01 02 10 11 12 20 21 22 我个人认为用硬编码常量初始化数组对于测试练习之外的任何事情都是毫无用处的无论如
使用 decltype() 声明函数签名

是否可以声明一个函数bar与函数具有相同的签名foo int foo int a return 0 decltype foo bar return 1 imaginary syntax 我认为这同样适用于 typedef 和别名您可以使用
从 SQL 获取 xml 属性

对于此 xml 在 SQL 2005 XML 列中
Random 并行生成数字 1 的次数超过 90% [重复]

这个问题在这里已经有答案了考虑以下程序 public class Program private static Random rnd new Random private static readonly int ITERATIONS 50
回发后我的 JavaScript 函数在 ASP.NET 中不起作用

我有共同的功能我把它折叠起来CommonFunctions js在脚本文件夹中我将它包含在我的主页上并在我的页面上使用它当我在页面上进行任何回发时我的功能不起作用 My CommonFunctions js function gf
我可以让 C++ 编译器在编译时实例化对象吗？

我正在编写一些代码其中包含大量相当简单的对象我希望它们在编译时创建我认为编译器能够做到这一点但我无法弄清楚如何做到 In C我可以执行以下操作 include
我无法从指向派生类的指针和指向基类的指针的指针进行分配？ [复制]

这个问题在这里已经有答案了可能的重复派生到基础之间的转换 https stackoverflow com questions 8026040 conversion between derived to base 在主要使用 Pyth
Sonarqube C# 扫描仪异常：“java.lang.IllegalArgumentException：不是指针的有效行偏移量”

有谁知道这是怎么回事在Windows服务器上使用Sonarqube v5 6 c 扫描仪v5 5 0 479 似乎是在多个文件中发现这一点而不总是相同的文件这是最令人担忧的有人有主意吗 16 46 03 INFO Importing
使用实体框架而不使用 using 语句的缺点？

有很多这样的代码块 public class SomeController Controller DbEntities entity new DbEntities public ActionResult Add entity someOpe
为 Visual Studio 安装 openCV 2.4 for C/C++

我一整天都在尝试在 Windows 7 上的 C C 上安装 Visual Studio 2010 的 OpenCV 版本 2 4 1 和 2 4 2 我一直在关注这个教程 http docs opencv org trunk doc tu
无法将“MongoDB.Bson.Serialization.Serializers.DateTimeSerializer”类型的对象转换为“MongoDB.Bson.Serialization.IBsonSerializer”类型

在寻找解决方案时我得到了this https stackoverflow com questions 30421379 mongodb custom collection serializer and this http mongodb g
类和结构在填充和继承方面的区别

以下所有操作都将在 GCC 9 1 上使用编译器资源管理器 https github com mattgodbolt compiler explorer 在 x86 64 中使用 O3 我有这个代码 struct Base Base do

随机推荐

bootstrap-select 下拉选项有时未加载

我正在使用 bootstrap select 1 12 4 版本和 Angular 4 3 5 我正在尝试使用 http 调用和异步管道加载下拉选项我面临的问题是刷新页面时大多数情况下都不会加载选择下拉选项但有时选项会加载我不确定
创建存储过程（如果尚不存在）

我想检查存储过程列表是否存在我希望这一切都在一个脚本中一一完成到目前为止我有这样的格式 USE myDatabase GO IF NOT EXISTS SELECT FROM sys objects WHERE type P AND n
如何设置 SUDO_ASKPASS 环境变量？

设置 SUDO ASKPASS 环境变量意味着什么你怎么做呢我在哪里声明我正在尝试使用 shell 脚本在几分钟后关闭我的计算机并使用 java 启动此脚本所以我不确定我会使用 SUDO ASKPASS为了这基本上的价值 SUDO
显示提交之间的差异

我正在使用 GitUbuntu 10 04 https en wikipedia org wiki Ubuntu version history Ubuntu 10 04 LTS 28Lucid Lynx 29 清醒山猫我已经向我的主人做
分叉存储库 - 每次与上游同步时解决相同的合并冲突

我已经分叉了一个存储库但我想经常使其与上游存储库保持同步我用自己的实现交换了一些模块这意味着每次我想与上游存储库同步时我都会一遍又一遍地遇到相同的合并冲突我的问题是有没有办法告诉 Git 对于这些情况使用我自己的实现而不是将其
转换内容位于 CDATA 内的 xml 元素

我有一个如下所示的 xml 片段
Android EditText 结合InputFilter vs TextWatcher

基本上我想了解更深入的差异和使用场景InputFilter and TextWatcher 根据文档 InputFilter 输入过滤器可以附加到可编辑项以限制可以对其进行的更改 TextWatcher 当某个类型的对象附加到可编辑对象时
如何在 Java 中获得主文件夹（或 appdata 文件夹，对于 Windows）的写入权限？

我试图在 home appdata 文件夹中保存一些用户设置但是当我使用 dir canwrite 时它返回 false 这是我用来确定 home appdata 文件夹的代码 public static String getAppDat
iOS 5：如何将表情符号转换为 unicode 字符？

我想在 iOS 5 中将表情符号转换为 unicode 字符 For example converting to ue415 我去了NS字符串编码 in NSString 类参考 http developer apple com libra
如何使用 tcc 和 tc 在 Dos 提示符下编译 C 程序

我想在 dos 提示符下使用 tcc 和 tc 编译 c 程序而不使用 c 编辑器请给出完整的程序我会查看 TCC 文档特别是快速入门指南 http bellard org tcc tcc doc html SEC3 在 TCC 网
在 Windows 上使用与 Rtools 和 Rcpp 附带的不同的 gcc 版本

在我开始更新 gcc 之前是否有人真正尝试过这一点他们能否确认需要从源代码构建 R 来更新用于使用 Rcpp 编译 c 代码的 gcc 版本即不一定用于包创作当然也不适用于 CRAN 有效包请参阅德克对此问题的回答以及原发帖者
ValueError：num 必须为 1 <= num <= 2，而不是 3

我有以下内容dataframe我使用生成的pivot table 我正在使用以下代码boxplot多列 fig plt figure for i in range 0 25 ax plt subplot 1 2 i 1 toPlot1 bo
升级到 IntelliJ 14 后出现 Java 和 Scala ClassNotFoundException

我最近升级到IntelliJ 14 然后添加Scala支持我的主文件停止运行例如 GUI 文件它没有错误并且完全独立hello world测试此错误的样式 Exception in thread main java lang Clas
如何让 div 到达页面顶部后随页面向下滚动？

我知道标题有点令人困惑 D 但基本上我想要做的事情已经在这个网站上清楚地展示了http 9gag com http 9gag com向下滚动并注意侧边栏有 2 个广告一旦第二个广告到达页面顶部它就会开始向下滚动页面我想知道如何做到这
用于在基于着色器的游戏中进行渲染的 OO 架构

在构建游戏引擎时我一直遇到这个问题我的类希望看起来像这样 interface Entity draw class World draw for e in entities e draw 这只是伪代码大致展示了绘图是如何发生的每个实体
错误：无法使用 Google Cloud Function 和 Express 处理请求

这是我的代码为什么当我访问云函数的 url 时我收到此消息错误无法处理请求但没有看到 Hello World 谢谢 exports simple req res gt var express require express var
如何使用新语法[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用 C++ 在 Windows 上创建具有 UNICODE 路径的文件

我想知道哪个 Win32 API 调用正在创建具有 UNICODE 路径的文件只是为了确保我在这里谈论的不是内容而是文件路径如果有人能用 MSDN 网址打我我将不胜感激这次我的 google fu 失败了预先感谢一百万 See
R CRAN 检查中的注意事项 -- * 检查顶级文件... 注意如果未安装“pandoc”，则无法检查文件 README.md

我正在检查我的 R 包是否有 CRAN 提交但有一个注释我无法删除我用谷歌搜索了它但似乎这个注释并不常见因此我没有找到太多有用的信息任何人都可以为我提供解决方案吗以下是输出的一部分R CMD check as cran usin
异常后重置 Cuda 上下文

我有一个使用 Cuda C 的工作应用程序但有时由于内存泄漏会引发异常我需要能够实时重置 GPU 我的应用程序是服务器因此它必须保持可用我尝试过类似的方法但似乎不起作用 try do process using GPU cat

异常后重置 Cuda 上下文

异常后重置 Cuda 上下文 的相关文章

随机推荐

热门标签

异常后重置 Cuda 上下文的相关文章