pytorch crossentropy为nan

2023-11-19

pytorch crossentropy为nan

交叉熵损失函数的具体为：

loss = -(x*ln(z)+(1-x)*ln(1-z))
z = softmax(pred_x)

这样当z为0/0时会出现loss为nan的情况

本人的具体原因
网络中用了MultiHeadAttention,attention的mask全为0,这样attention就为nan，造成个别样本的输出特征全为nan。于是就自己用pytorch写了一个cross_entropy loss函数，剔除掉有时候个别为nan的样本。
github地址:Self_cross_entropy

参考解决方案

在pred_x上加一个很小的量，如1e-10
loss = crossentropy(out+1e-8, target)
1
采用更小的学习率
做梯度裁剪

pytorch 梯度裁剪

import torch.nn as nn

outputs = model(data)

loss= loss_fn(outputs, target)

optimizer.zero_grad()

loss.backward()

nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)

optimizer.step()

nn.utils.clip_grad_norm_ 的参数：

parameters – 一个基于变量的迭代器，会进行梯度归一化

max_norm – 梯度的最大范数

norm_type – 规定范数的类型，默认为L2

还可能是数据有问题
比如这位的.链接
[参考]

https://stats.stackexchange.com/questions/108381/how-to-avoid-nan-in-using-relu-cross-entropy

且新的变量自动全是variable类型，可顺利反向传播
实现好后运行结果出现大量的nan，无法正常运算，使用clamp限制loss计算值的范围
class CrossEntropy(nn.Module):
def __init__(self):
super(CrossEntropy, self).__init__()

def forward(self, inputs, targets):
## torch中要想实现backward就不能使用np，不能用array，只能使用tensor，只有tensor才有requires_grad参数
loss1=-targets*(torch.log(inputs)).cuda()
loss=torch.sum(loss1.clamp(min=0.0001,max=1.0))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pytorch crossentropy为nan 的相关文章

检查 PyTorch 张量在 epsilon 内是否相等

如何检查两个 PyTorch 张量在语义上是否相等考虑到浮点错误我想知道元素是否仅相差一个小的 epsilon 值在撰写本文时这是最新稳定版本 0 4 1 中的一个未记录的函数但文档位于master unstable branch
max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

我正在处理文本分类问题我想使用 BERT 模型作为基础然后使用密集层我想知道这 3 个参数是如何工作的例如如果我有 3 个句子 My name is slim shade and I am an aspiring AI Engin
无法使用 torch.Tensor 创建张量

我试图创建一个张量如下所示 import torch t torch tensor 2 3 我收到以下错误类型错误回溯最近调用最后在 gt 1 a torch tensor 2 3 类型错误 tensor 需要 1 个位置参数但
如何使用 torch.stack？

我该如何使用torch stack将两个张量与形状堆叠a shape 2 3 4 and b shape 2 3 没有就地操作堆叠需要相同数量的维度一种方法是松开并堆叠例如 a size 2 3 4 b size 2 3 b torc
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
在 C++ API 中将一个张量的一大块复制到另一个张量中

我需要复制一行一个张量在c API 转换为另一个张量的某些部分其中开始和结束索引可用在 C 中我们可以使用类似的东西 int myints 10 20 30 40 50 60 70 std vector
我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
pytorch 中的 keras.layers.Masking 相当于什么？

我有时间序列序列我需要通过将零填充到矩阵中并在 keras 中使用 keras layers Masking 来将序列的长度固定为一个数字我可以忽略这些填充的零以进行进一步的计算我想知道它怎么可能在 Pytorch 中完成要么我需要
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
为什么不使用均方误差来解决分类问题？

我正在尝试使用 LSTM 解决一个简单的二元分类问题我正在尝试找出网络的正确损失函数问题是当我使用二元交叉熵作为损失函数时与使用均方误差 MSE 函数相比训练和测试的损失值相对较高经过研究我发现二元交叉熵应该用于分类问题 MS
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l

随机推荐

【Jboss】热部署

版权声明本文为博主原创文章未经博主允许不得转载 https blog csdn net inforstack article details 47681803
蓝桥杯：斐波那契数列最大公约数

题目表示的很明确要用两个算法斐波那契数列是很经典的dp问题最大公约数是很经典的辗转相除法从而我理所应当的就定义一个数组存放斐波那契数列 long long int F 2021 0 F 1 1 F 2 1 for int i 3 i
解决SQL Server占用服务器内存过高问题

最近发现个问题数据库服务器内存居高不下 64G的内存几乎被占用100 结果差点把服务器给拖垮了第一步打开SQL Server Management Studio 在连接上右键属性第二步内存选项卡修改最大服务器内存的大小如下
Android Killer的安装和配置 -安卓逆向的必备神器

图文并茂详细的不能再详细了这你总不能学不会吧都给我学会安装包我已经放在了文章末尾需要可以自取哟 1 下载安卓Android killer 首先我们先下载打包好的Android killer 解压缩后可以得到一大堆没啥用的文件
用WinHex软件解析FAT32文件系统

一工欲善其事 1 准备工作将一个U盘格式化为FAT32格式在U盘内创建几个文件最好是TXT文档其中至少有一个是长文件命名较长 2 补充知识短文件名表示长文件名表示 Note 当一个文件名为长文件名时会由几个长文件名表示法和
Linux查看当前目录下各文件所占空间

要查看当前目录下各文件所占空间可以使用du命令磁盘使用情况配合sort命令来实现以下是在Linux系统中执行的命令 du sh sort hr 解释一下这个命令 du sh 计算当前目录下每个文件和目录的总大小并以易读的方式显示
给定一个无重复元素的有序整数数组 nums 。返回恰好覆盖数组中所有数字的最小有序区间范围列表。也就是说，nums 的每个元素都恰好被某个区间范围所覆盖，并且不存在属于某个范围但不属于 n

class Solution public List
让dapper支持Oracle

之前的项目数据使用mssql和mysql ORM使用一个轻量级的dapper 感觉很方便性能也比EF强关键是语法灵活上手容易用这种框架开发了几个网站感觉非常好但新项目要使用oracle 就出问题了 dapper里的关键字在or
史上最全量化交易资源整理

有些国外的平台社区博客如果连接无法打开那说明可能需要科学上网国内在线量化平台 BigQuant 你的人工智能量化平台可以无门槛地使用机器学习人工智能开发量化策略基于python 提供策略自动生成器镭矿基于量化回测平台
PCL 大窗口可视化两个点云

一主要参数 viewer gt setFullScreen true 设置点云为全屏显示的2D俯视图二代码实现 1 一个大窗口可视化两个点云 include
清除history内容

history记录是记录在 bash history中的 history c 清除的是当前会话的记录原来的记录是不会被清除的可以直接删除 bash history 清空这个文件cat dev null gt bash history
c++ - 抽象类和多态当中一些问题

抽象类纯虚函数在虚函数的后面写上 0 则这个函数为纯虚函数 class A public virtual void func 0 纯虚函数不需要写函数的定义他有类似声明一样的结构抽象类概念我们把具有纯虚函数的类叫做抽象类所谓抽
C++ 惯用法之 CRTP

背景 CRTP 是一种 C 的设计方法其巧妙的结合了继承和模板编程技术可以用来给类提供额外的功能 CRTP 概述 CRTP 的基本特征表现为基类是一个模板类派生类在继承该基类时将派生类自身作为模板参数传递给基类实现示例 tem
ACE命令参数解析

ACE提供了ACE Get Opt类来处理命令行参数选项这个类是一个迭代器用于解析按照自然数方式计数的参数向量它包装了POSIX的getotp 函数的功能但是与getopt 函数不同 ACE Get Opt类的每个实例都维护有自己的
【Vue】终极笔记：面试必胜宝典，大厂面试题源码级详解 (持续更新！！！)

Vue经典面试题源码级详解 1 Vue组件之间通信方式有哪些分析思路分析回答范例 1 组件通信常用方式有以下8种 2 根据组件之间关系讨论组件通信最为清晰有效 2 v if 和 v for哪个优先级更高分析思路分析回答范例 3
mysql运行语句时出现 FUNCTION *** does not exist

我在运行MYSQL时经常出现这种问题一阵搜索后原来问题出现在函数与括号之间的空格上比如写成 concat 这样就出错了需要去掉空格 concat 就好了资料来源在这个网址找到方法 http blog 152 org 2009
[Spring Boot]08 IDEA接入MyBatisCodeHelper代码自动生成器

目录前言一插件市场安装插件二使用插件自动生成代码前言上次介绍了原生mybatis的方法 06 Spring Boot接入mybatis通用mapper插件自动生成器这次再介绍下插件MyBatisCodeHelper Pr
P4wnP1 USB与赛门铁克反病毒绕过

最近我使用P4wnP1 image把我手头的Raspberry Pi Zero W转换成了一个bad USB 我的最终目标是运行远程命令shell 同时绕过已启用完全保护的最新版Symantec SEP 我通过创建自己的有效负载paylo
QGis二次开发 -- 源码编译终极篇

由于是开源软件 QGis版本迭代比较快在保持long term release版本的基础上每个月都会有一个monthly release的新版本发布源码工程变化快速给想要上手编译开发的新人朋友带来了一些困惑我之前分别写过QGis1
pytorch crossentropy为nan

pytorch crossentropy为nan 交叉熵损失函数的具体为 loss x ln z 1 x ln 1 z z softmax pred x 这样当z为0 0时会出现loss为nan的情况本人的具体原因网络中用了MultiH

pytorch crossentropy为nan

pytorch crossentropy为nan

pytorch crossentropy为nan 的相关文章

随机推荐

热门标签