Pytorch遇到的问题及解决方案 - 更新ing

2023-10-26

1、安装完成后，不能import torch，提示 ImportError: dlopen: cannot load any more object with static TLS

解决办法：有很多答案都说是将import torch放在import cv2之前，但我试了之后还是不能解决，最后是通过在jupyter notebook中可以直接import torch。我是通过mobarxterm连接实验室的服务器，在console下以及spyder下均不能import torch，只有在jupyter下可以。

更新：也可通过修改backend解决。

2、对两个variable进行concat操作，按道理实现方式是c = torch.cat([a, b], dim=0)，但提示错误

TypeError: cat received an invalid combination of arguments - got (tuple, int), but expected one of:

(sequence[torch.cuda.FloatTensor] tensors)
(sequence[torch.cuda.FloatTensor] tensors, int dim)
didn’t match because some of the arguments have invalid types: (tuple, int)

解决办法：根据提示刚开始以为是cat不接受tuple作为输入，然而真正的问题在于a和b的type不一样，比如可能出现a是torch.cuda.DoubleTensor而b是torch.cuda.FloatTensor，因此，将a和b转换为相同的type即可。

3、模型训练时提示 RuntimeError: tensors are on different GPUs

这个问题出现的原因在于训练数据data或者模型model其中有一个是*.cuda()，而另一个不是。全都改为data.cuda()和model.cuda()即可

解决办法：data = data.cuda()

model = model.cuda()

4、模型训练时提示 TypeError: argument 0 is not a Variable

原因在于输入data不是Variable，需转化成Variable格式。

解决办法：from torch.autograd import Variable

data = Variable(data).cuda()

5、自定义Loss训练时提示 AttributeError: 'MyLoss' object has no attribute '_forward_pre_hooks'

根据题感觉像是loss在forward之前出错了，关于pytorch如何自定义loss可以参见这里。

解决办法：在loss初始化函数里加入 super(MyLoss, self).__init__()

6、训练过程没有问题，验证是提示CUDA Error：Out of Memory

提示是Memory的问题，第一反应是降低batch size大小，据说是有用的，但我试着将batch size降为1，仍然不行。再考虑其他办法，发现在定义Variable时，没有限制不求梯度（比如输入的input和target并不需要求梯度），根据搜索，有两种方法：一是采用requires_grad=False，另一种是使用volatile=True，一般推荐使用第二种。但我用的是Pytorch的0.4版本，volatile不再支持。

解决方法：用with torch.no_grad()替代volition。即如果源代码为

target_var = torch.autograd.Variable(target.cuda(async=True))

如果用0.4之前的版本可采用

target_var = torch.autograd.Variable(target.cuda(async=True),volatile=True)

如果0.4之后的版本，可采用

with torch.no_grad()
    target_var = torch.autograd.Variable(target.cuda(async=True),volatile=True)

问题基本解决。如果还有问题，那可能出在代码中可能出现了反复叠加的操作，比如acc的叠加，或者loss 的叠加，将loss中的data提取出，并且记得用完之后del即可。

7、提示‘BatchNorm2d’ object has no attribute ‘track_running_stats’错误

pytorch 0.4 不支持，由于版本不对应而出现的问题。

解决方法：更换pytorch版本，如降低至pytorch 0.3版本。

8、提示“Expected object of type torch.DoubleTensor but found type torch.FloatTensor for argument #2 'weight'”

解决方法：添加model.double()即可

9、提示Expected object of type torch.DoubleTensor but found type torch.cuda.DoubleTensor for argument #2 'weight'

之前的写法是inputs.cuda(), outputs.cuda()

解决方法：改写为inputs=inputs.cuda(). outputs=outputs.cuda()

10、Debug时候卡在第一个epoch，但run时没有任何问题。

解决方法：将dataloader的num_works设置为1即可

11、RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

出现问题的原因是Train的代码中至少调用了两次loss.backward()

解决办法：在第二次调用loss.backward()之前更新output，即在loss.backward()前添加output = model(input)

12、加载已有模型提示Unexpected key(s) in state_dict: "module.aaa. ...".，Expected ".aaa...."

出现问题的原因是在训练保存模型是采用了数据并行。

解决办法：一方面可以直接读取state_dict后重新修改其key值，将module去掉；另一方面可以采用

model = nn.DataParallel(model)

将模型重新定义为并行方式，即可加载。

13、定义加载数据模块时，自定义数据反转，如data = data[:,::-1,:]，提示错误 ValueError: some of the strides of a given numpy array are negative. This is currently not supported, but will be added in future releases.

解决办法：提示的错误很直接，就是pytorch不支持数据反转用负号索引。解决办法有两种，第一种是事先存储好反转数据，比较麻烦；第二种方式返回data.copy()

class Loader(Dataset):
    def __init__(self):
        pass;
    def __getitem__(self,index):
        pass;
    def flip(self,data):
        data = data[:,::-1,:]
        return data.copy()
    def __len__(self):
        pass;

14、模型测试时

TypeError: Broadcast function not implemented for CPU tensors

解决办法：出现该问题的原因在于旧版pytorch不支持在CPU上的并行。最新版的pytorch已经支持，更新pytorch版本即可。

15、加载模型时

torch.load('model.pth')

提示 RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location=torch.device('cpu') to map your storages to the CPU.

解决办法：问题出在默认加载模型采用cuda形式，而机器没有cuda。解决方法很直接，根据提示，修改加载模型代码为

torch.load('model.pth',map_location=torch.device('cpu'))

16、计算交叉熵损失CrossEntropyLoss时

提示Runtime Error: 1only batches of spatial targets supported (non-empty 3D tesnors) but got target of size ...

原因在于pytorch的CrossEntropyLoss中target需要时三维张量，

解决办法：将多余的维度squeeze即可

17、计算损失时

提示RuntimeError: bool value of Tensor with more than one value is ambiguous

这个问题比较囧。碰到这个问题时，是为了快速检查网络是否能跑通，因此错误的采用了nn.*Loss(output, target)导致。

解决办法：nn.*Loss()(output, target)

18、加载预训练模型参数update不能更新

问题如下：

In [1]: import torch

In [2]: from collections import OrderedDict

In [3]: class test(torch.nn.Module):
   ...:      def __init__(self):
   ...:          super(test,self).__init__()
   ...:          self.conv = torch.nn.Conv2d(in_channels=1,out_channels=1,kernel_size=3)
   ...:      def forward(self,input):
   ...:          return self.conv(input)
   ...:

In [4]: temp = test()

In [5]: dic = OrderedDict()

In [6]:  dic['conv.weight'] = torch.rand((1,1,3,3))

In [7]: temp.state_dict()
Out[7]:
OrderedDict([('conv.weight', tensor([[[[-0.1748,  0.0271, -0.3102],
                        [-0.1261, -0.2181,  0.0350],
                        [ 0.0762, -0.0180, -0.1770]]]])),
             ('conv.bias', tensor([0.2851]))])

In [8]: temp.state_dict().update(dic)

In [9]: temp.state_dict()
Out[9]:
OrderedDict([('conv.weight', tensor([[[[-0.1748,  0.0271, -0.3102],
                        [-0.1261, -0.2181,  0.0350],
                        [ 0.0762, -0.0180, -0.1770]]]])),
             ('conv.bias', tensor([0.2851]))])
In [16]: dic
Out[16]:
OrderedDict([('conv.weight', tensor([[[[0.2074, 0.9585, 0.9153],
                        [0.0786, 0.8215, 0.8277],
                        [0.3613, 0.6411, 0.4371]]]]))])

如上所示，我们期望通过自定义的dic去更新模型参数，发现与预期不一致，模型state_dict并未更新。

解决办法：参见第19

19、部分加载预训练模型

正确的加载部分预训练模型参数方法如下（接上述问题的ipython代码）：

In [10]: model_state = temp.state_dict()

In [12]: model_state.update(dic)

In [13]: temp.load_state_dict(model_state)
Out[13]: IncompatibleKeys(missing_keys=[], unexpected_keys=[])

In [15]: temp.state_dict()
Out[15]:
OrderedDict([('conv.weight', tensor([[[[0.2074, 0.9585, 0.9153],
                        [0.0786, 0.8215, 0.8277],
                        [0.3613, 0.6411, 0.4371]]]])),
             ('conv.bias', tensor([0.2851]))])

In [16]: dic
Out[16]:
OrderedDict([('conv.weight', tensor([[[[0.2074, 0.9585, 0.9153],
                        [0.0786, 0.8215, 0.8277],
                        [0.3613, 0.6411, 0.4371]]]]))])

我们发现，模型参数更新了。即问题出在不能直接采用update更新，用update更新后需重新通过load_state_dict函数加载进去，才能完成模型的部分加载参数。

20、程序运行过程中，提示 WARNING:root:NaN or Inf found in input tensor.

因为提示的“found in input tensor”，所以第一反应是数据没有做过滤，出现了NaN或者Inf。万万没想到，出现问题的原因竟然是梯度消失。。。

解决办法：修改学习率或者变换优化方法。

21、在import torchvision过程中提示 AttributeError: module 'torch.jit' has no attribute 'unused'

提示错误的原因在于torchvision版本问题，应该是高版本的torchvision不支持。

解决办法：降低torchvision版本至0.4及以下。

22、Dataloader读取数据时，提示 RuntimeError: invalid argument 0: Sizes of tensors must match except in dime

原因在于同一batch的不同样本，其通道数不一致，以读取图片为例，如有的以灰度方式读取，其他以RGB方式读取，那么会提示上述错误，

解决办法：筛查数据读取方式，将读取方式更改为一致即可。

23、用torch.index_select对指定维度的Tensor选取数据时，提示

RuntimeError: Expected object of scalar type Long but got scalar type Float for argument #3 'index' in call to _th_index_select

解决方法很直白，要求index数据类型为Long的Tensor，另外如果需要提取多index，可采用range的方式，如：

data_index, label_index = torch.Tensor([0, 12, 18, 21, 22, 23]).long(), torch.Tensor(range(24, 48)).long()
data, label = torch.index_select(input, dim=2, index=data_index), torch.index_select(input, dim=2, index=label_index)

24、提示 ImportError: cannot import name 'amp' from 'torch.cuda'

解决办法：安装apex

git clone https://github.com/NVIDIA/apex.git
cd apex
python setup.py install --cpp_ext

将from torch.cuda import amp 替换为 from apex import amp

25、提示：TypeError: only integer tensors of a single element can be converted to an index

解决办法：可以debug注意一下出错的位置，一般为数据的类型存在问题，或者误将函数的多个返回值当作一个返回值进行运算。

26、调用pytorch-lightning的self.hparams=hparams时提示AttributeError: can't set attribute

解决办法：将self.hparams=hparams替换为self.save_hyperparameters(hparams)

27、Pytorch模型部署用ONNX提示：orch.onnx.errors.SymbolicValueError: Unsupported: ONNX export of operator upsample_bilinear2d, align_corners == True.

解决办法：将导出onnx模型的opset_version参数设置为11。

28、不能通过pip安装cartopy或cinrad库，提示GEOS或PROJ等错误

解决办法：采用conda方式直接安装

conda install cartopy
conda install cinrad

29、提示：CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

解决办法：将device设置为cpu一般可查看具体问题在哪儿，另一种方法是查看GPU显存是否够用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch遇到的问题及解决方案 - 更新ing 的相关文章

sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

前端CSS权重你了解吗？

CSS权重 CSS权重指的是样式的优先级有两条或多条样式作用于一个元素权重高的那条样式对元素起作用权重相同的后写的样式会覆盖前面写的样式权重的等级可以把样式的应用方式分为几个等级按照等级来计算权重 1 important 加在
研究生毕业致谢感言

时光荏苒转眼便已进入硕士研究生的尾声如果以相机倒带的形式回顾过去两年半的时间里有为了研修学分而奔波于教室和图书馆之间的镜头有为了做实验写论文埋头苦干到深夜的镜头有受过打击受过伤害相然也有喜悦振臂高呼的镜头硕士研究生的结果很美好
python设置画图风格_Python可视化33

本文详细介绍matplotlib 绘图风格 style 及rcParams设置本文速览 1 rcParams默认参数修改 rcParams中默认参数绘图修改rcParams默认参数取消rcParams参数修改 2 绘图风格设置 wit
Python入门之Lambda函数

匿名函数的定义在 Python 里有两类函数第一类用 def 关键词定义的正规函数第二类用 lambda 关键词定义的匿名函数 Python 使用 lambda 关键词来创建匿名函数而非def关键词它没有函数名其语法结构如下
Java 读取任意shapefile的所有字段，并插入到MongoDB数据库（Spring Boot）

文章目录 Java 读取任意shapefile的所有字段并插入到MongoDB数据库 Spring Boot 1 统一返回结果封装 2 shp文件数据实体封装 3 核心代码 3 可能出现的异常 3 1 异常产生原因 3 2 解决方案 4
idea debug高级特性看这篇就够了

文章目录多线程调试循环遍历条件断点显示方法返回值调试过程中动态修改变量的值调试内存泄露所谓工欲善其事必先利其器从eclipse转idea也有一段时间了一直想总结下idea调试的一些高级技巧 debug过程如果高效撸代码也会
Matlab实现图像的比例缩放

以灰度图像circuit tif为例利用Matlab图像处理工具箱中的imresize函数对图像进行比例缩放变换要求创建4个figure窗口不可以用subplot 显示不出来放大效果分别用于显示原始图像等比例放大1 5倍后的图像
记录--vue+three,制作iview大波浪特效

这里给大家分享我在网上总结出来的一些知识希望对大家有所帮助一效果图具体效果可参考iview官方界面iView 一套高质量的UI组件库大波浪效果使用的是three js的官方例子需要先安装three js支持 npm insta
mysql用到了 all 和 Using temporary; Using filesort，如何优化？

使用 EXPLAIN 分析查询的执行计划可以帮助优化查询这两个标识表示 MySQL 需要使用临时表来执行查询或者在查询结束时对结果进行排序这可能会导致查询运行得更慢要优化查询你可以尝试以下方法尽量避免使用 SELECT 而是只选
DDD（领域驱动设计）系列主题：聚合和聚合根

本篇文章主要介绍了聚合根聚合的概念然后介绍了聚合的设计过程和原则以及对比了聚合聚合根实体值对象的特点思考的问题为什么要在限界上下文和实体之间增加聚合和聚合根的概念它们的作用是什么如何设计聚合概念和职责聚合根如果把聚
2020年数学建模国赛A题：炉温曲线

2020年高教社杯全国大学生数学建模竞赛题目请先阅读全国大学生数学建模竞赛论文格式规范 A题炉温曲线在集成电路板等电子产品生产中需要将安装有各种电子元件的印刷电路板放置在回焊炉中通过加热将电子元件自动焊接到电路板上在这个生产
虚拟机的快捷键

ctrl alt 鼠标就出来了 ctrl c 中断当前操作
谷粒商城--从入门到入坟（持续更新）第一篇：总体概括

简介谷粒商城项目是尚硅谷的一套基于微服务的电商视频在网上大受欢迎本人系大三老狗准备用大约一个月时间去拆解该商品的知识点由点及面最后希望呈现一个比较好的效果每个知识点配套的安装软件及源码也会发布出来希望有伙伴能一起进步
自定义控件.DateTimePicker_02

ZC 踩坑过程在后面 1 在 Generic xaml 中添加内容
Unknown system variable 'query_cache_size' 问题终于解决了，原来是这样！

遇到这种问题搞了半天终于解决原因 mysql connecter java的版本过低很显然是数据库驱动程序与数据库版本不对应查看了一下配置发现mysql connector java的版本是5 1 37 而我本地mysql版本是8
Mysql中explain执行计划信息中字段详解

Mysql中explain执行计划信息中字段详解 1 获取执行计划 2 字段含义 2 1 id 2 2 select type 2 3 table 2 4 partitions 2 5 type 2 6 possible keys 2 7
qt 信号与槽的用法和定义

转自 http blog csdn net kaffeel article details 5568954 信号和槽是Qt编程的一个重要部分这个机制可以在对象之间彼此并不了解的情况下将它们的行为联系起来在前几个例子中我们已经连接了信号
通过OKhttp3 访问 https地址

okHttp3添加信任所有证书 return public static OkHttpClient getUnsafeOkHttpClient try final TrustManager trustAllCerts new TrustMa
[分布式]可伸缩性最佳实践

下面是我们认为的一些可伸缩性的最佳实践异步尽可能的使用异步同步调用会导致两个服务的可用性绑在一起意味着一个服务出问题或变慢另一个也会受到影响这点也是eBay一直强调的泳道设计错误隔离机制避免一个失败影响全局这种机制也有助
Pytorch遇到的问题及解决方案 - 更新ing

1 安装完成后不能import torch 提示 ImportError dlopen cannot load any more object with static TLS 解决办法有很多答案都说是将import torch放在imp

Pytorch遇到的问题及解决方案 - 更新ing

Pytorch遇到的问题及解决方案 - 更新ing 的相关文章

随机推荐

热门标签