CUDA程序导致nvidia驱动程序崩溃

2024-04-19

当我超过大约 500 次试验和 256 个完整块时，我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃。这似乎发生在 monteCarlo 内核函数中。任何帮助都会受到赞赏。

#include <stdio.h>
#include <stdlib.h>
#include <cuda.h>
#include <curand.h>
#include <curand_kernel.h>


#define NUM_THREAD 256
#define NUM_BLOCK 256



///////////////////////////////////////////////////////////////////////////////////////////
///////////////////////////////////////////////////////////////////////////////////////////

// Function to sum an array
__global__ void reduce0(float *g_odata) {
extern __shared__ int sdata[];

// each thread loads one element from global to shared mem
unsigned int tid = threadIdx.x;
unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
sdata[tid] = g_odata[i];
__syncthreads();

// do reduction in shared mem
for (unsigned int s=1; s < blockDim.x; s *= 2) { // step = s x 2
    if (tid % (2*s) == 0) { // only threadIDs divisible by the step participate
        sdata[tid] += sdata[tid + s];
    }
    __syncthreads();
}

// write result for this block to global mem
if (tid == 0) g_odata[blockIdx.x] = sdata[0];
}

///////////////////////////////////////////////////////////////////////////////////////////
///////////////////////////////////////////////////////////////////////////////////////////
__global__ void monteCarlo(float *g_odata, int  trials, curandState *states){
//  unsigned int tid = threadIdx.x;
    unsigned int i = blockIdx.x*blockDim.x + threadIdx.x;
    unsigned int incircle, k;
    float x, y, z;
    incircle = 0;

    curand_init(1234, i, 0, &states[i]);

    for(k = 0; k < trials; k++){
        x = curand_uniform(&states[i]);
        y = curand_uniform(&states[i]);
        z =(x*x + y*y);
        if (z <= 1.0f) incircle++;
    }
    __syncthreads();
    g_odata[i] = incircle;
}
///////////////////////////////////////////////////////////////////////////////////////////
///////////////////////////////////////////////////////////////////////////////////////////
int main() {

    float* solution = (float*)calloc(100, sizeof(float));
    float *sumDev, *sumHost, total;
    const char *error;
    int trials; 
    curandState *devStates;

    trials = 500;
    total = trials*NUM_THREAD*NUM_BLOCK;

    dim3 dimGrid(NUM_BLOCK,1,1); // Grid dimensions
    dim3 dimBlock(NUM_THREAD,1,1); // Block dimensions
    size_t size = NUM_BLOCK*NUM_THREAD*sizeof(float); //Array memory size
    sumHost = (float*)calloc(NUM_BLOCK*NUM_THREAD, sizeof(float));

    cudaMalloc((void **) &sumDev, size); // Allocate array on device
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);


    cudaMalloc((void **) &devStates, (NUM_THREAD*NUM_BLOCK)*sizeof(curandState));
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);


    // Do calculation on device by calling CUDA kernel
    monteCarlo <<<dimGrid, dimBlock>>> (sumDev, trials, devStates);
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);

        // call reduction function to sum
    reduce0 <<<dimGrid, dimBlock, (NUM_THREAD*sizeof(float))>>> (sumDev);
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);

    dim3 dimGrid1(1,1,1);
    dim3 dimBlock1(256,1,1);
    reduce0 <<<dimGrid1, dimBlock1, (NUM_THREAD*sizeof(float))>>> (sumDev);
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);

    // Retrieve result from device and store it in host array
    cudaMemcpy(sumHost, sumDev, sizeof(float), cudaMemcpyDeviceToHost);
    error = cudaGetErrorString(cudaGetLastError());
    printf("%s\n", error);


    *solution = 4*(sumHost[0]/total);
    printf("%.*f\n", 1000, *solution);
    free (solution);
    free(sumHost);
    cudaFree(sumDev);
    cudaFree(devStates);
    //*solution = NULL;
    return 0;
}

如果较少数量的试验工作正常，并且如果您在没有 NVIDIA Tesla 计算集群 (TCC) 驱动程序的 MS Windows 上运行和/或您使用的 GPU 连接到显示器，那么您可能超出了操作系统的“看门狗” “ 暂停。如果内核占用显示设备（或 Windows 上没有 TCC 的任何 GPU）时间过长，操作系统将杀死内核，以便系统不会变得非交互式。

解决方案是在非显示器连接的 GPU 上运行，如果您使用的是 Windows，请使用 TCC 驱动程序。否则，您将需要减少内核中的试验次数并多次运行内核来计算所需的试验次数。

编辑：根据CUDA 4.0 curand 文档 http://developer.download.nvidia.com/compute/cuda/4_0/toolkit/docs/CURAND_Library.pdf（第 15 页，“性能说明”），您可以通过将生成器的状态复制到内核内的本地存储来提高性能，然后在完成后将状态存储回来（如果您再次需要它）：

curandState state = states[i];

for(k = 0; k < trials; k++){
    x = curand_uniform(&state);
    y = curand_uniform(&state);
    z =(x*x + y*y);
    if (z <= 1.0f) incircle++;
}

接下来，它提到设置成本很高，并建议您将 curand_init 移动到单独的内核中。这可能有助于降低 MC 内核的成本，这样您就不会遇到看门狗。

我建议阅读文档的该部分，其中有一些有用的指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA程序导致nvidia驱动程序崩溃的相关文章

在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
java.lang.ClassNotFoundException：com.mysql.jdbc.Driver（在jre的库中）

我已将 mysql connector java 5 1 18 bin jar 添加到 jre 和 jdk 库中这是 C Windows system32 gt javap java io Bits Compiled from Bits
添加 UIFont 并查找字体系列会因 EXC_BAD_ACCESS 崩溃

我的问题是当我添加描述的字体时here https stackoverflow com questions 3350131 how to add new font to xcode 3 2当我想检索字体系列名称时 UIFont famil
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
IOs7 应用程序在后台崩溃

我的应用程序有时会在后台崩溃并显示以下崩溃日志 Nov 7 12 33 31 iPad backboardd 29
Xcode 助理编辑器不会显示部分代码

首先我想让您知道该类已设置为每个中的正确文件ViewController 我知道这一点因为它之前确实有效但后来我在 Xcode 中发生了崩溃它快速闪烁而我无法在它再次关闭之前读取它我的问题是我有很多ViewControlle
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
数据源的驱动程序类的名称丢失（Netbeans+ PostgreSql + Glassfish）

我正在尝试在 Postgres 9 2 db 和 Glassfish 4 服务器上使用 Netbeans 8 开发 EJB 应用程序在 glassfish 管理面板中创建连接池和 JDBC 资源后我无法使用数据源添加实体 Netbean
iPhone - 如何使用 XCode 4 符号化/翻译/读取设备崩溃日志

我如何翻译符号化来自我的设备的崩溃日志以了解应用程序崩溃的位置假设我运行了调试版本我有 crash 文件以及与发送的文件相对应的 app 和 app dSYM 文件到设备界面没有命令行解决方案将不胜感激因为据说组织者知道如何
尝试将我的应用程序添加到系统设置 -> 隐私和安全 -> 辅助功能列表是应用程序崩溃的原因

我有一些应用程序此应用程序必须具有辅助功能才能使用全局热键打开辅助功能首选项窗口没有问题系统设置 gt 隐私和安全 gt 辅助功能但用户必须手动单击按钮才能在硬盘上搜索我的应用程序并将我的应用程序手动添加到列表中我正在尝试将
如果 vbs 脚本崩溃，请重新启动它

我正在尝试制作一个 vb 脚本如果它崩溃它将重新启动另一个 vb 脚本我搜索了又搜索但我得到的只是如何重新启动程序并且由于 vb 脚本是后台进程因此当您在 Win32 Process 中搜索时它不起作用这是我的代码 set S
简单的程序崩溃

所以我已经使用 MinGW GCC 版本 4 4 有一段时间了并决定是时候升级了我去MinGW网站下载了最新版本的GCC 4 7 0 删除以前的版本并安装最新版本后即使是最简单的程序也会崩溃例如如果我编译这个程序 include
Xamarin.Android 应用程序仅在干净编译时找到启动器活动

我有一个Xamarin Android标记为 MainLauncher 的活动称为 Login 当我第一次按 F5 时应用程序在模拟器中正常启动然后我停下来进行一些代码更改再次按 F5 我可以看到应用程序在模拟器中启动当我收到以下
如何调试 iOS 应用程序在启动时崩溃，仅在程序集文件中设置断点

我遇到了当前正在开发的应用程序的问题问题是应用程序在启动时在后台运行一段时间后崩溃并且仅在这种情况下在应用程序被杀死时启动应用程序不会导致调试器或手机崩溃无论是否进行调试在后台启动应用程序大约 5 10 分钟都不会导致崩溃在后台
自动创建 Visual C++ 故障转储

有没有办法在应用程序崩溃时在 Windows 操作系统上自动创建故障转储文件就像我可以使用附加的 Visual Studio 调试器进行保存一样也就是说我希望能够使用自动创建的故障转储文件在 Visual Studio 中调试我的
SceneKitpresentScene(_withTransition:incomingPointOfViewcompletionHandler) 与动态加载的 SCNScene 崩溃

我试图从一个场景过渡到另一个场景但是当我打电话时presentScene有车祸场景不存储在类中或引用它们直接加载到presentScene call Screenshot of crash in Xcode 我的简单的最小项目在这里
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
如何使用 PDB 文件

我听说使用 PDB 文件可以帮助诊断崩溃发生的位置 My basic理解是你给 Visual Studio 源文件 pdb 文件和崩溃信息来自 Dr Watson 有人可以解释一下这一切是如何运作的涉及什么吗谢谢你 PDB 文件将程序
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真

随机推荐

将 matlab 中的 find() 转换为 python

我正在将代码从 Matlab 转换为 Python Matlab中的代码为 x find sEdgepoints gt 0 sNorm lt lowT sEdgepoints x 0 两个数组的大小相同我基本上是在创建一个掩码 I rea
Xcode 14.0 - PackageIndex.findPackages 失败：featureDisabled 警告

自从我升级到 Xcode 14 0 后我收到以下警告 PackageIndex findPackages failed featureDisabled 网络搜索没有得到任何结果我有一个SPM包但似乎没有任何问题有人知道如何摆脱这个警
如何在部署的appengine数据库上的eclipse中调试服务器代码？

我在 Eclipse 中有一个 Google AppEngine Java 项目我想在 Eclipse 中调试本地代码但使用 AppEngine 上部署的数据库到目前为止我使用带有用户名密码的远程 API 旧方式此方法将被弃用
如何获取批处理文件中的字符串长度？

似乎没有一种简单的方法可以获取批处理文件中字符串的长度例如 SET MY STRING abcdefg SET A MY STRING LEN 我如何找到字符串的长度MY STRING 如果字符串长度函数处理字符串中所有可能的字符包括转
Chrome 扩展 + 网页视图

我正在努力寻找这个问题的明确答案除 Chrome 操作系统外所有操作系统均已弃用 Chrome 应用只能在 Chrome 应用中使用这意味着我不能或不应该在扩展中使用如果可能根据进一步的研究测试和评论绝对不能在扩展中使用只
postbuild UIAutomation 脚本未在 jenkins 中运行

我正在尝试做端到端自动化 for an iOS项目我的目标是自动化持续集成处理与附加UIAutomation脚本作为构建后操作因此从用户在 SVN 中检查他的代码开始直到我们得到自动化测试结果一切都将是自动化的 Jenkins安装
使用 fb_graph Ruby gem 从 Facebook 检索好友位置

我正在尝试使用 gem 检索用户所有朋友的位置 fb graph https github com nov fb graph 版本1 7 2 我的权限是发布流读取好友列表离线访问好友位置用户位置我已经对用户进行了身份验证并存储了
“不支持”在不指定 RuntimeIdentifier 的情况下构建或发布独立的应用程序

使用最新的 Visual Studio 2019 我尝试发布 DotNetCore 3 1 WPF 应用程序的 Msix 安装程序应用程序构建并正确运行但是当我尝试发布应用程序时出现此错误 It is not supported to
迭代 DFS 与递归 DFS 以及不同的元素顺序

我编写了一个递归 DFS 算法来遍历图 void Graph
eclipse 烦恼：调试和启动工具栏不可用

我正在运行 Windows XP 和 Eclipse 4 2 2 Build id M20130204 1200 并且我丢失了调试和启动工具栏我尝试过 Windows gt 重置透视原始值和窗口 gt 自定义透视工具栏可见性和命令组
JavaScript 中的错误：对象不是函数

当我运行下面的代码时它显示错误object is not a function在控制台中这个错误就在这一行var todo new Todo contents in my script js文件我怎样才能让它发挥作用这是我的 tod
监控网络连接带宽的最佳工具

我正在寻找一个非常简单的工具来监控所有应用程序的带宽不需要流量监视等额外功能我只是对带宽感兴趣我已经知道 Wireshark 这很棒但我正在寻找更多类似 TcpView 来自 Sysinternals 的出色工具以及当前带宽指示的
Rails、activerecord 求和然后排序

我有一个属于用户的工作模型并且用户有很多工作我想创建一个 AR 查询来计算每个用户的总工作日数然后按降序排列到目前为止我已经有了这个但给了我一个错误列 Job id 必须出现在 GROUP BY 子句中或在聚合函数中使用 wo
Phonegap - 在插件委托中从 Objective-c 向 Javascript 发送消息

我有一个 Phonegap Cordova 插件在此插件中我收到来自 javascript 的点击事件此点击触发使用我的客户端库的文件下载此文件下载发送事件并调用我的插件中的方法因为我已将其设置为委托我无法使用 stringBy
java.lang.NoSuchFieldError：没有 Landroidx/compose/foundation/layout/BoxScope$Companion 类型的字段 Companion；

我是第一次使用 Jetpack Compose 但收到此错误我还没有弄清楚问题到底出在哪里但我正在使用单活动架构如果需要更多信息请通知我根据错误信息问题似乎出在脚手架上 val scaffoldState rememberSca
添加应用程序时 Firebase 数据库被删除

好的所以我正在构建一个将在 Play 商店上运行的应用程序它具有将数据添加到 Firebase 的功能它无法读取数据第二个应用程序将保留在我身边它不会出现在游戏商店中它用于读取数据现在我所做的是假设第一个应用程序有包名称 c
有目的地回到之前的活动

我有两个活动当我在第一个活动上按 Enter 时它将打开第二个活动它包含一个ListView当我从中选择一个项目时ListView 它将获得其值并返回到第一个活动这就是我尝试过的在第二项活动中 listPerasat setOnI
R：随机采样抛硬币组

我正在使用 R 编程语言 Suppose 有一枚硬币如果它正面朝上那么下一次抛掷正面的概率是 0 6 如果是反面那么下一次抛掷反面的概率也是 0 6 一个班有100名学生每个学生随机抛掷硬币几次 Student n 的最后一次抛硬币
Iframe/CSS：强制 Iframe 适合屏幕

我目前正在尝试让 iframe 适合我的屏幕尺寸以及任何其他以不同分辨率使用它的用户除非无论我尝试什么最终都会导致 iframe 太小或高度太大导致双滚动条 iframe 和页面本身有滚动条我的目标是让 iframe 仅适合页面宽度
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include

CUDA程序导致nvidia驱动程序崩溃

CUDA程序导致nvidia驱动程序崩溃 的相关文章

随机推荐

热门标签

CUDA程序导致nvidia驱动程序崩溃的相关文章