CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

2023-05-16

UPDATE 2023 01 11
我觉得评论区的方法比我的方法更加简单，建议诸位老铁先看评论区：
在这里插入图片描述

好兄弟们看看是不是这个错：

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

先在上边儿导入 os 库，把那个环境变量导入：

import os
os.environ['CUDA_LAUNCH_BLOCKING'] = '1' # 下面老是报错 shape 不一致

这样再出错了，打印的信息就比较详细了

这是原来的报错信息，这个报错信息，参考价值不大，好兄弟可以看后面：

torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
Training (0 / 20 Steps) (loss=4.11153):   2%|▏         | 1/58 [00:14<13:44, 14.47s/it]
torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
Training (1 / 20 Steps) (loss=4.06208):   2%|▏         | 1/58 [00:27<13:44, 14.47s/it]
Validate (X / X Steps) (dice=X.X):   0%|          | 0/5 [00:00<?, ?it/s]
torch.Size([2, 321, 307, 178]) torch.Size([2, 321, 307, 178])
----------------------------------------
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [189,0,0], thread: [1,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [63,0,0], thread: [60,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [149,0,0], thread: [6,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [149,0,0], thread: [12,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
Validate (X / X Steps) (dice=X.X):   0%|          | 0/5 [00:27<?, ?it/s]
Training (1 / 20 Steps) (loss=4.06208):   2%|▏         | 1/58 [00:55<53:07, 55.92s/it]
---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
Input In [7], in <cell line: 97>()
     96 metric_values = []
     97 while global_step < max_iterations:
---> 98     global_step, dice_val_best, global_step_best = train(
     99         global_step, train_loader, dice_val_best, global_step_best
    100     )
    101 model.load_state_dict(torch.load(os.path.join(root_dir, "best_metric_model.pth")))

Input In [7], in train(global_step, train_loader, dice_val_best, global_step_best)
     56 if (
     57     global_step % eval_num == 0 and global_step != 0
     58 ) or global_step == max_iterations:
     59     epoch_iterator_val = tqdm(
     60         val_loader, desc="Validate (X / X Steps) (dice=X.X)", dynamic_ncols=True
     61     )
---> 62     dice_val = validation(epoch_iterator_val)
     63     epoch_loss /= step
     64     epoch_loss_values.append(epoch_loss)

Input In [7], in validation(epoch_iterator_val)
     17 # print(val_output_convert[1].shape, val_labels_convert[1].shape)
     18 print("-"*40)
---> 19 print(val_output_convert[0].cpu().numpy().max(), 
     20       val_labels_convert[0].cpu().numpy().max())
     21 print(val_output_convert[0].cpu().numpy().min(), 
     22       val_labels_convert[0].cpu().numpy().min())
     23 # print(val_labels_convert.max(), val_labels_convert.min())

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

这是我错误的地方：

x, y = (batch["image"].cuda(), batch["label"].cuda())
print(x.shape, y.shape)
logit_map = model(x)
print(logit_map.shape, "FUCKCKKCKCKCCK")

torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
torch.Size([4, 14, 96, 96, 96]) FUCKCKKCKCKCCK

稍微看一下程序，x 显然就是输出的图片，而 y 就是对应的label，logit_map 就是对应的预测map

好兄弟们可能猜到了，我这个是3D的分割，所以维度是5，后面的[96, 96, 96] 是输出的shape
那个4是batch_size，1 那一维，是输出的类别

我这个是只有前景和背景，所以只要分两类就可以了，这里应该改成2

话说如果真的就这么简单，我就不氵这篇博客，碰到这个问题的老铁们，一定是拿来改别人代码，没改完整，才遇到这个问题的，今儿咱们就说叨说叨

改写自己的数据集，嗯，一般就是新写一个Dataset类，要是他的数据集格式和你的一样，那直接改路径就好了
改写输出的模型，一般你的输入都是三通道，输入参数 input_channel 一般不用改，但是输出的类别要改啊，你是输出几类，就是改几类
(分割这里有个问题，有的模型会包括背景，有的会不包括背景，涉及到一个 +1 或者 -1 的问题)

一般来说，模型的输入或者输出通道数，都会在模型的构造函数最开始定义，下边的例子就是改一下out_channels 就行

model = UNETR(
    in_channels=1,
    out_channels=2,   # <------------ 改这里
    img_size=(96, 96, 96),
    feature_size=16,
    hidden_size=768,
    mlp_dim=3072,
    num_heads=2,  # 这里这个类别要改的
    pos_embed="perceptron",
    norm_name="instance",
    res_block=True,
    dropout_rate=0.0,
).to(device)

改前处理，这个也可以看做数据增强的一部分，这里一般不涉及通道数或者类别的改动，但是某些域的照片，可能不适合另一个域的数据增强方法，比如医学图像一般只用：

Randomly adjust intensity for data augmentation
而如果你用随机旋转就不是很合适

后处理，一般有NMS什么的，不用改
但是在我遇到的问题中，有这个

post_label = AsDiscrete(to_onehot=2)                 # 这里是需要改的
post_pred = AsDiscrete(argmax=True, to_onehot=2)     # 这里是需要改的

官网的解释：

Execute after model forward to transform model output to discrete values.

It can complete below operations:
    -  execute `argmax` for input logits values.
    -  threshold input value to 0.0 or 1.0.
    -  convert input value to One-Hot format.
    -  round the value to the closest integer.

反正就是把你的结果离散化，你看到 one_hot 眼睛其实就有光了(因为这个东西的长度会随着需求的变化而改变)，所以这里也要改

后面的 loss 和 optimizer 一般不用改，看心情吧
一个没什么用的trick，我还是拿例子说

https://github.com/Project-MONAI/research-contributions/tree/master/UNETR/BTCV
在这里插入图片描述
我这个问题是器官分割，一个13个器官，加上一个背景，一共14类
所以要改的地方有：

只有这三个，在那个页面，按住 ctrl + F ，输入 14 一个一个看，是不是需要改的

这么憨憨的方法，我最开始咋没想到呢。。。。。。

有参考自：
https://blog.csdn.net/Penta_Kill_5/article/details/118085718

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

Kernel

Errors

might

asynchronously

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m 的相关文章

构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
定义新的套接字选项以在 TCP 内核代码中使用

我正在尝试向 TCP 内核代码添加一些功能在tcp input c 我希望我实现的代码仅在某些情况下运行我想添加一个控制标志可以从用户空间应用程序设置它我认为我需要添加一个新的套接字选项以便我可以完成以下操作setsockop
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
libstdc++.so.6 与 cuda 相关的链接器问题

今天我在链接我编译的 cuda 内容时遇到了问题我有一个最新的 debian 测试 w 2 6 32 3 amd64 我整天都在写我的代码不时编译没有问题但在进行了较小的代码更改后我收到以下错误 gcc o pa CUDA o h
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
物理地址、设备地址和虚拟地址的区别

有什么区别设备地址实际地址 and 虚拟地址其实我正在努力mmap在驱动程序中我一直坚持这个概念 The 文档 https www kernel org doc Documentation DMA API HOWTO txt says
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
如何在Linux内核中启用CONFIG_PREEMPT选项？

我是 Linux 内核编程的新手尝试在 x86 64 上使用旧内核 Linux 2 6 32 我想启用其中的 CONFIG PREEMPT 选项但找不到有关如何执行此操作的信息我可以使用我的首选选项编译新内核但不知道在这种情况下我需
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
转储 $mft 文件的内容

对于一些商业的我正在做的项目我需要能够读取 mft 文件中存储的实际数据我找到了一个gpl lib http www codeproject com KB files NTFSParseLib aspx artkw ntfs这可能会有所帮
Linux 中 NDIS 过滤器的类似物是什么？

我正在研究一个as close to real time我在linux中尽可能地使用系统并且需要在收到特定数据包后立即发送大约600 800字节的TCP数据包为了获得最佳的延迟我希望这个数据包直接从内核发送而不是将接收到的数据包一直

随机推荐

C++详解：枚举类型 --- enum | Xunlan_blog

文章目录一概念二定义枚举元素表三定义枚举对象的操作四要点 amp 技巧实例一概念枚举类型 enumeration xff0c 是C 43 43 中的一种派生数据类型 xff0c 是用户创建的一个集合 xff0c 可以增加
使用vue3+axios和后端交互时无法改变的data中的数据

今天在编写前端页面的时候 xff0c 打算引入axios进行ajax请求 xff0c 可以在这个过程中遇到了一个非常大的坑 xff0c 先来看看有坑的代码我们看一下浏览器端的console的打印情况可以看到 xff0c 第二次打印thi
Ubuntu20.04搜狗输入法官方安装指南实操

前言 linux下也想用已经熟悉的搜狗输入法 xff0c 于是乎 xff0c 在网上查各种教程 xff0c 发现很多都不能成功 xff0c 在要放弃的时候 xff0c 下面这个链接帮助自己完成了这个任务 xff1a 官方教程 xff1a U
国王游戏——c++实现

题目描述恰逢 H 国国庆国王邀请 n 位大臣来玩一个有奖游戏首先他让每个大臣在左右手上面分别写下一个整数 xff0c 国王自己也在左右手上各写一个整数然后 xff0c 让这 n 位大臣排成一排 xff0c 国王站在队伍的最前面
正确打开db文件的方式，避免乱码和无意义内容

db文件如果用记事本或者Notepad 43 43 打开 xff0c 会显示乱码 xff0c 改变编码不能解决问题 xff0c 如果用UltraEdit打开 xff0c 可以看到进制数据 xff0c 但是无意义的正确的方法有多种 xff1
深度优先搜索——枚举组合

所谓枚举组合 xff0c 其实就是从若干个选若干个数比如x 1 x 2 x 3 x 4 x n 每个数字时0 xff08 不选 xff09 和1 xff08 选 xff09 x表示当前选到第几个书 xff0c dep表示选了几个数对于每
更新个祥硕ASM1153E开卡转接板的固件，详细教程

固态硬盘开卡需要使用USB转接板连接电脑 xff0c 使用那些未经验证的普通硬盘盒开卡 xff0c 经常会碰到一些千奇百怪的错误而导致开卡失败 xff0c 专用开卡板可以让你少走很多弯路注意 xff1a 目前sata转usb的桥接芯片
Android获取OAID

目录写在最前面写在前面说明文档 SDK使用过程 xff1a 代码实现写在最前面看评论有好些朋友遇到了一些我没遇到的问题 xff0c 而且看官方文档也已经更新 xff0c 想着这些问题官方是不是已经优化解决了 xff0c 就按着最新
Java基础——隐式转换vs强制转换

在定义变量时 xff0c 有许多要注意的问题 xff0c 一不小心就会出现损失精度或者不兼容类型等问题例如 xff1a 1 定义长整型数据时 xff0c 必须加后缀 l 或 L long l 61 123456789012345L 2 定
【Open CASCADE -生成MFC和QT事例方式】

源代码目录 adm目录 xff1a 包含编译OCCT的相关工程 adm cmake目录 xff1a 包含使用CMake构建OCCT的相关处理脚本 adm msvc目录 xff1a 包含window平台 Visual C 43 43 2010
Kotlin学习笔记八、Kotlin简单控件的使用

1 按钮Button xff1a Button是Android最常用的控件之一其用法我们这里主要是关注三个方面 xff0c 一是点击事件 xff0c 二是长按事件 xff0c 三是设置文本点击背景效果等等其中点击事件和长按事件用法上跟
java代码实现将spark数据集json字符串转为具体对象

依赖引入 span class token generics span class token punctuation lt span dependency span class token punctuation gt span span
飞桨: Error: op accuracy does not have kernel for data_type[int64_t]:data_layout[ANY_LAYOUT]:place

当前版本的paddle是1 7 老铁们大家来看看完整的报错是不是这个 Error op accuracy does not have kernel for data type int64 t data layout ANY LAYOUT
adobe AE: 磁盘缓存文件夹所在的驱动器没有足够的可用空间来安全存储在首选项中指定的全部量

看着挺玄乎 xff0c 就是说 xff0c 该软件要求性能高 xff0c 你现在没用足够的磁盘空间给我缓存其默认为C盘 xff0c 故而大部分笔记本电脑可能不满足所以我们换一个目录就行了在其他盘新建一个文件夹选择即可 xff0c 但别
TypeError: `method` object is not subscriptable

今天遇到一个特别尴尬的问题 xff1a TypeError span class token punctuation span span class token string 39 method 39 span span class tok
教授、研究员、高级工程师、工程师，各系列职称体系对比

教授研究员高级工程师工程师 xff0c 各系列职称体系对比 xff1a 我找了好久 xff0c 终于找到一个全的 xff1a 一 xff1a 高校教育系列一般是即从事教学又从事科研的教师系列职称分为四级助教 xff0c 讲师 xf
C - 瑞神打牌（不支持C++11；G++和C++编译器都试试！） POJ - 1786

题目牌局由四个人构成 xff0c 围成一圈我们称四个方向为北东南西对应的英文是North xff0c East xff0c South xff0c West 游戏一共由一副扑克 xff0c 也就是52张构成开始 xff0c 我
Linux安装CUDA GCC版本不兼容

环境KALI 我估计Ubuntu也是一样的当前NVIDIA驱动版本 455 23 05 GCC版本 xff1a Debian 10 2 0 15 老铁们一定是这样操作的 xff1a span class token function su
LINUX设置临时路径

有时候需要设置下临时路径以方便使用 xff0c 在逛github FCOS配置的时候看到了这种使用方式 xff0c 觉得蛮有用的 xff0c 分享给大家 xff1a span class token function export span
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

UPDATE 2023 01 11 我觉得评论区的方法比我的方法更加简单 xff0c 建议诸位老铁先看评论区 xff1a 好兄弟们看看是不是这个错 xff1a RuntimeError span class token punctuatio

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m 的相关文章

随机推荐

热门标签