补充：YOLO模型训练时loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡）

2023-11-19

补充

1 参考1
2 补充
3 小结

1 参考1

在参考有头发的垃圾猿的《YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）》后，发现问题不能得到实际的解决（可能是版本不一样导致代码不一样的问题），所以按照其思路，对有头发的垃圾猿文章进行补充说明。

2 补充

因为yolo各个系列中又分为多个版本，所以在上个作者的文章，指出来取消自动混合精度，但仅指出某个yolo系列的版本的更改，这里进行补充。
YOLO版本：YOLOV5系列第6版本，V6.0；V7.0也一样没去看

在这里插入图片描述
图1

因为调试后发现在经过model后，数据显示都为NAN，传入model前数据如图2所示，传入后数据变nan如图3所示：

原因可能是精度的变化导致经过model后数据被莫名其妙更改，引起某些指数计算，算得值为INF、梯度变化等情况，这里仅为猜测，没有研究，有兴趣的读者可以自己去看看。

在这里插入图片描述图2
图3

我的更改：
train.py文件中

原代码：
       # Forward
       with amp.autocast(enabled=cuda):
        	pred = model(imgs)  # forward
            loss, loss_items = /
            compute_loss(pred, targets.to(device))  
更改后的代码：
       # Forward
       # with amp.autocast(enabled=cuda):
       pred = model(imgs)  # forward
       loss, loss_items = compute_loss(pred, /
       				targets.to(device))

更改后，会增加GPU内存消耗，因为所有的精度都采用全精了
是的就是这么简单，取消掉后的训练结果，显示正常如图4所示：
在这里插入图片描述图4

3 小结

不写了，上面那个作者写过了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

深度学习

Pytorch

补充：YOLO模型训练时loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡）的相关文章

torch.unique() 中的参数“dim”如何工作？

我试图提取矩阵每一行中的唯一值并将它们返回到同一个矩阵中重复值设置为 0 例如我想转换 torch Tensor 1 2 3 4 3 3 4 1 6 3 5 3 5 4 to torch Tensor 1 2 3 4 0 0 0 1 6
推导 pytorch 网络的结构

对于我的用例我需要能够采用 pytorch 模块并解释模块中的层序列以便我可以以某种文件格式在层之间创建连接现在假设我有一个简单的模块如下所示 class mymodel nn Module def init self input
使用 pytorch 获取可用 GPU 内存总量

我正在使用 google colab 免费 Gpu 进行实验并想知道有多少 GPU 内存可供使用 torch cuda memory allocated 返回当前占用的 GPU 内存但我们如何使用 PyTorch 确定总可用内存 PyT
我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
在pytorch中使用tensorboard，但得到空白页面？

我在pytorch 1 3 1中使用tensorboard 并且我在张量板的 pytorch 文档 https pytorch org docs stable tensorboard html 运行后tensorboard logdir r
为什么ssd和yolo没有roi池化层？

我们知道目标检测框架像faster rcnn and mask rcnn has an roi pooling layer or roi align layer 但是为什么ssd和yolo框架没有这样的层呢首先我们要明白这样做的目的是什么
YOLO 目标检测：算法如何预测大于网格单元的边界框？

我试图更好地理解 YOLO2 和 3 算法的工作原理该算法处理一系列卷积直到达到13x13网格然后它能够对每个网格单元内的对象以及这些对象的边界框进行分类如果您查看这张图片您会发现红色边框比任何单个网格单元都大边界框也以对象的
PyTorch 教程错误训练分类器

我刚刚开始 PyTorch 教程使用 PyTorch 进行深度学习 60 分钟闪电战我应该补充一点我之前没有编写过任何 python 但其他语言如 Java 现在我的代码看起来像 import torch import torchvi
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
LSTM 错误：AttributeError：“tuple”对象没有属性“dim”

我有以下代码 import torch import torch nn as nn model nn Sequential nn LSTM 300 300 nn Linear 300 100 nn ReLU nn Linear 300 7
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
如何计算cifar10数据的平均值和标准差

Pytorch 使用以下值作为 cifar10 数据的平均值和标准差变换 Normalize 0 5 0 5 0 5 0 5 0 5 0 5 我需要理解计算背后的概念因为这些数据是 3 通道图像我不明白什么是相加的什么是除什么的等等

随机推荐

跟大师一起学习环路补偿，图文并茂

作为工程师每天接触的是电源的设计工程师发现不管是电源的老手高手新手几乎对控制环路的设计一筹莫展基本上靠实验靠实验当然是可以的但出问题时往往无从下手在这里我想以反激电源为例子在所有拓扑中环路是最难的由于RHZ 的存在大
wsl安装ubuntu

WSL 用管理员打开powershell wsl install 重启用管理员打开powershell 启用适用于 Linux 的 Windows 子系统 dism exe online enable feature featurenam
vue3+leaflet+天地图

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录一准备工作 1 安装插件 2 天地图秘钥二使用步骤 1 引入库 2 创建地图容器 3 初始化地图 4 界面效果天地图地图服务API相关一准备工作需要先
Oracle两张表关联批量更新其中一张表的数据

创建如下表数据 select from t1 select from t2 现需求参照T2表修改T1表修改条件为两表的fname列内容一致方式1 update 常见陷阱 UPDATE T1 SET T1 FMONEY select
二进制安全虚拟机Protostar靶场安装,基础知识讲解,破解STACK ZERO

简介 pwn是ctf比赛的方向之一也是门槛最高的学pwn前需要很多知识这里建议先去在某宝上买一本汇编语言第四版看完之后学一下python和c语言 python推荐看油管FreeCodeCamp的教程 c语言也是 pwn题目大部分是破
基于python+selenium的二次封装

这是个人对selenium webdriver写的一些常用操作的二次封装也就相当于重写了不再使用自带的框架用自己写的框架完成这样的话使代码更简洁用自己的思想完成代码的编写首先在根目录下创建子目录名为Common作为公用数据名字
RequireJS 与 AngularJS 集成（完整版）

JS结构 main js main js这个文件完成的事情简单来说就是载入所有文件然后在document上运行Angular并将ng app属性设置为 app 这些文件因为是由RequireJS异步载入因此我们需要来手动启动 Ang
逻辑回归原理（python代码实现）

原文 https blog csdn net csqazwsxedc article details 69690655 Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程为最大化方
架构学习笔记—优酷网

互联网就是这么一个神奇的东西今天我突然想到优酷网在国内也算是视频网站的老大了不知道他的架构相对于YouTube是怎么样的于是带着这个好奇心去网上找了优酷网架构的各方面资料虽然谈的不是那么详细但多少还是挖掘了一点现在总结一下
线程和进程的区别（面试必备）

参考文章 https www jianshu com p 2dc01727be45 线程与进程的区别通俗的解释 https www jianshu com p 8ad441510860 附加可参考文章 https baijiahao bai
c#与SQL server知识

1 数据库建立在C 中建立的数据库想要在SQLserver中找到需要连接与c 相同的服务器才可以找到 2 在C 中建立数据库更新不成功需要打开SQL server 连接与c 相同的服务器随后在c 中更新 3 在c 界面中更新数据库成
maven安装及配置（详细版）

1 下载方式一可以从官方下载下载页面 http maven apache org download cgi 方式二或者题主提供的版本下载maven安装包提取码 ysns 下载好后是一个压缩文件 2 安装 maven压缩包解压到一个没
拓展知识启望未来

炎炎六月迎来了备受期待的亚信科技AntDB数据库初级认证培训活动通过培训希望内蒙古移动及项目组的伙伴们能够系统学习到国产数据库的核心知识提升专业技能为服务感知提升运维团队培育注入新的活力 26号上午首先由内蒙古移动智慧运维
【10】Docker私有仓库

一私有仓库搭建与配置 1 拉取私有仓库镜像 docker pull registry 2 创建并启动私有仓库容器 docker run di name registry p 5000 5000 registry 打开浏览器输入地址
JavaScript Boolean 对象

解释 Boolean 对象用于转换一个不是 Boolean 类型的值转换为 Boolean 类型值 true 或者false 语法 var a true var b false Boolean 对象属性属性描述 constructor
数据结构学习系列之顺序表的两种创建方式

方式1 通过返回值返回所申请的内存空间的首地址示例代码 list t create seq list 1 list t p list t malloc sizeof list t if NULL p printf 内存分配失败 n exi
linux内核、驱动和硬件之间的关系和通信

linux驱动是直接和硬件打交道的软件程序层次结构上它处于操作系统和硬件之间驱动与linux内核的关系驱动程序提供的一组设备驱动接口函数Device Driver Interface给操作系统在linux中这一组设备驱动接口函数一
前端axios下载excel文件(二进制)的处理方法

前端axios下载excel文件二进制的处理方法后端生成excel后前端 click 事件进行下载脱坑记录亲测有效 lz 使用的是 axios 发起请求首先介绍一下思路准备通过动态创建 a 标签通过 blob 对象进行接
java调优总结

JVM调优总结序几年前写过一篇关于JVM调优的文章前段时间拿出来看了看又添加了一些东西突然发现基础真的很重要学习的过程是一个由表及里再由里及表的过程呵呵所谓的温故而知新而真正能走完这个轮回的人也就能称为大牛或专家了
补充：YOLO模型训练时loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡）

补充 1 参考1 2 补充 3 小结 1 参考1 在参考有头发的垃圾猿的 YOLO系列训练时出现loss出现nan值或者测试时P R map全部为0值的解决办法 GTX16xx系列显卡大坑后发现问题不能得到实际的解决可能是版本不一样导