CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？

2023-12-04

我注意到 CUDA 应用程序在失败并退出之前的最大运行时间往往为 5-15 秒。我意识到最好不要让 CUDA 应用程序运行那么长时间，但假设使用 CUDA 是正确的选择，并且由于每个线程的顺序工作量必须运行那么长时间，有什么方法可以延长这个时间或绕过它？

我不是 CUDA 专家，---我一直在使用 AMD Stream SDK 进行开发，据我所知，它大致相当。

您可以禁用 Windows 看门狗定时器，但那是强烈不推荐，原因应该是显而易见的。要禁用它，您需要重新编辑HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Watchdog\Display\DisableBugCheck，创建一个 REG_DWORD 并将其设置为 1。您可能还需要在 NVidia 控制面板中执行某些操作。在 CUDA 文档中查找有关“VPU 恢复”的一些参考。

理想情况下，您应该能够将内核操作分解为对数据的多次传递，以将其分解为在时间限制内运行的操作。

或者，您可以划分问题域，以便每个命令计算更少的输出像素。也就是说，不是一下子计算 1,000,000 个输出像素，而是向 GPU 发出 10 个命令，每个命令计算 100,000 个。

必须适合时间片的基本单元不是整个应用程序，而是单个命令缓冲区的执行。在 AMD Stream SDK 中，通过使用 CtxFlush() 调用显式刷新命令队列，可以将长操作序列分解为多个时间片。也许CUDA有类似的东西？

你应该not必须在每个时间片上通过 PCIX 总线来回读取所有数据；您可以将纹理等保留在 GPU 本地内存中；您只是偶尔完成一些命令缓冲区，以向操作系统证明您没有陷入无限循环。

最后，GPU 是fast，因此，如果您的应用程序无法在 5 或 10 秒内完成有用的工作，我会将其视为出现问题的迹象。

[2010 年 3 月编辑更新：] （再次过时，请参阅下面的更新以获取最新信息）上面的注册表项已过时。我认为这是 Windows XP 64 位的关键。 Vista 和 Windows 7 有新的注册表项。您可以在此处找到它们：http://www.microsoft.com/whdc/device/display/wddm_timeout.mspx或在这里：http://msdn.microsoft.com/en-us/library/ee817001.aspx

[2015 年 4 月编辑更新：] 这真的已经过时了。为 Cuda 编程禁用 TDR 的最简单方法（假设您已安装 NVIDIA Nsight 工具）是打开 Nsight Monitor，单击“Nsight Monitor options”，然后在“General”下将“WDDM TDRenabled”设置为 false。这将为您更改注册表设置。关闭并重新启动。对 TDR 注册表设置的任何更改只有在重新启动后才会生效。

[编辑 2018 年 8 月更新：]尽管 NVIDIA 工具现在允许禁用 TDR，但 AMD/OpenCL 开发人员也面临同样的问题。对于这些：记录 TDR 设置的当前链接位于https://learn.microsoft.com/en-us/windows-hardware/drivers/display/tdr-registry-keys

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？的相关文章

如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
有没有好的 GLSL 哈希函数？

所以我对这个问题的古老评论仍然得到了支持 GLSL rand 这一行代码的起源是什么 https stackoverflow com questions 12964279 whats the origin of this glsl rand
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
更改 NHibernate Session.Save 命令超时

我们有几个长时间运行的后端进程其运行时间超过默认的 30 秒我们的NHibernate版本是2 0 1 4000 Spring NET是1 2 0 20313 NHibernate 通过 Spring NET 进行配置
UnimplementedError：图形执行错误：在张量流上运行 nn

我一直遇到这个错误我不知道为什么特别是因为我完全遵循某人的代码并且该人在运行此错误时没有错误 img shape 128 128 3 load pretrained model base model tf keras applicati
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
使用 tfprof 分析 TensorFlow

我正在尝试分析 TensorFlow 的计算内存使用情况发现tfprof https github com tensorflow tensorflow tree master tensorflow tools tfprof是实现我的目的
Rx Framework：在超时时执行操作，而不中断原始可观察序列

给定一个可观察的源通过轮询低级设备的变化状态生成 observable source metacode IObservable
超时时杀死或终止子进程？

我想尽可能快地重复执行子进程然而有时这个过程会花费太长的时间所以我想杀死它我使用 signal signal 如下所示 ppid pipeexe pid signal signal signal SIGALRM stop handl
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
在 CUDA 中的设备内存上分配 2D 数组

如何在 Cuda 中的设备内存中分配和传输往返于主机 2D 数组我找到了解决这个问题的方法我不必展平阵列内置的cudaMallocPitch 函数完成了这项工作我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
如何检查 webgl(two.js) 的客户端性能

我有一个使用 Three JS 的图形项目现在我想自动检查客户端 GPU 性能并计算可以在应用程序中加载多少元素我想到了诸如 GPU 基准测试之类的东西看一眼stats js https github com mrdoob stats
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那

随机推荐

如何将 16 位 wav 转换为原始音频

我正在尝试使用 sox 将星号语音邮件转换为原始音频原始wav的编码信息是PCM S16 LE 所以我想我可以这样做sox msg0000 wav msg0001 raw但其中的原始文件是乱码根据 VLC 的说法与 6 秒的源文件相比
上传具有多种变体选项的新产品

我正在尝试通过 ruby 而不是使用 Rails 上传产品我已通过 API 上传了 100 多个产品但我无法上传具有多个选项值的产品即使我分配三个选项值它也不会填充其他两个这是脚本 require shopify api requ
NSArray initWithObjects: 是否保留对象？

当使用 initWithObjects 将对象添加到 NSArray 时任何人都可以为我确认这些项目被保留我很确定它们是但是找不到有关 initWithObjects 的任何地方提到它 CREATE DRINKS Coffee dri
从 httpsession 检索浏览器区域设置？

是否可以从 httpsession 对象 javax servlet http HttpSession 派生首选语言可以从 servletrequest 中获取它但我没有感谢您的任何想法斯文用户的首选区域设置可作为请求标头 Acc
在 Oracle DB 的 CLOB 字段中存储文件

我的 oracle 表中有一个具有 CLOB 数据类型的列如何在此列中存储 txt 文件以及如何检索同一文件下面是表定义 fileID Number logFile CLOB 提前致谢在 PL SQL 中将文件加载到 CLOB 中非常
在R中逐行读取大文件而不带标题

我在 R 中有一个非常大的数据文件千兆如果我尝试用 R 打开它我会收到内存不足错误我需要逐行读取文件并进行一些分析我发现了一个关于这个问题的上一个问题其中文件是由 n 行读取并跳转到带有 clump 的某些行我已经使用了 Ni
Protractor：如何让配置文件更加灵活？

我有一个想法让我的配置更加灵活例如我有 10000 个具有相同参数的配置文件 seleniumAddress http localhost 4444 wd hub specs C Users Lilia Sapurina Desktop
找不到经过训练的 NLU 模型（Actions on Google）

我们正在使用 google SDK 上的 Actions 开发启动我们迁移了我们的开发项目 UAT 突然它停止工作了以前我们使用相同的方法并且每次都有效机器人对初始短语响应一次然后停止响应它说抱歉机器人名称没有响应请稍后再试
如何在 Android 上打印堆栈跟踪（带有符号函数名称）？

这个问题已经被问过很多次了但从未得到真正的答案今天我花了 5 到 6 个小时尝试将一些库移植到 Android libunwind liwdfl 这些库可能从未打算在 ARM 上运行当然无济于事问题是Android缺少backtr
当MySql数据库中添加新记录时，使用Jquery自动更新Div

我正在为我的朋友制作一个社交网站我想知道当数据库中添加新记录时如何更新包含数据库中少量插入记录的 Div 简而言之你一定见过 Facebook 的实时通知当有人做某事时这些通知就会淡出这一切都发生在没有刷新整个实时通知 div
以编程方式检查 SD 卡是否可用

我的应用程序适用于仅具有 SD 卡的手机因此我想以编程方式检查 SD 卡是否可用以及如何找到 SD 卡可用空间是否可以如果是我该怎么做 Boolean isSDPresent android os Environment getE
在 Windows 中托管 Git 存储库

目前是否有办法在 Windows 中托管共享 Git 存储库据我所知您可以使用以下命令在 Linux 中配置 Git 服务 git daemon 是否有本地 Windows 选项缺少共享文件夹来托管 Git 服务编辑我目前正在使
创建两列无序列表

我希望制作一个类似于下面的两列无序列表但也想知道如何整合加号的图像我正在寻找一种没有 CSS3 优点的解决方案以便它可以支持较旧的浏览器这是我的网站的链接 http jobspark ca job listings 由于我正在使用
magento 的 NGINX-FPM 配置设置

我正在运行一个用 magento 开发的电子商务网站我的服务器有 512mb RAM 和 2 6 core2duo 当我在网站上一次发送 50 个请求时除了少数请求外它不会响应我也安装了清漆我想知道我想要为我的网站进行的最佳设置
变异，触发器/函数可能看不到它 - 触发器执行期间出错

CREATE OR REPLACE TRIGGER UPDATE TEST 280510 AFTER insert on TEST TRNCOMPVISIT declare V TRNCOMPNO NUMBER 10 CURSOR C1 I
使用 Findbugs 编写一个检测器来搜索“System.out.println”的使用

我正在尝试编写一个错误检测器来使用 Findbugs 查找方法调用 System out println 的实例我知道字节码中的 System out println 被编译为对 GETSTATIC 的调用将 System out 推入
android - 活动切换时意外的短暂方向变化

我想在我的 Android 应用程序中动态设置屏幕方向为此我使用 activity setRequestedOrientation ActivityInfo SCREEN ORIENTATION PORTRAIT 和类似的到目前为止效
定义 Vue-Router 路由时访问 Vuex 状态

我有以下 Vuex 商店 main js import Vue from vue import Vuex from vuex Vue use Vuex init store const store new Vuex Store state
Jetty 和最大内容大小

我使用 Jetty 9 4 8 我想限制可以发布到服务器的数据量为此我添加到 jetty xml
CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？

我注意到 CUDA 应用程序在失败并退出之前的最大运行时间往往为 5 15 秒我意识到最好不要让 CUDA 应用程序运行那么长时间但假设使用 CUDA 是正确的选择并且由于每个线程的顺序工作量必须运行那么长时间有什么方法可以延长这个

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？ 的相关文章

随机推荐

热门标签

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？的相关文章