深度学习模型训练tips&典型报错解决方案(持续更新)

2023-11-03

一、Pytorch页面文件太小,无法完成操作
1、可能是python安装根目录磁盘虚拟内存不足,应增大虚拟内存,虚拟内存默认为C盘的2GB。
2、可能是对应磁盘空间不足,需清理磁盘空间。
3、如使用win10系统,Datalodar可能出现问题,应尝试将num_workers设小一点,或直接置0。
4、可能是batch_size设置的太大,显存不够,应调小batch_size。
二、使用命令在终端中查看训练时GPU的使用情况(要先进入对应虚拟环境):

watch -n 10 nvidia-smi  #每10s刷新一次
nvidia -smi -l 2 #每2s刷新一次,按CTRL+C可中止

三、使用特定的GPU进行训练,在train.py的最上方,可插入以下代码:

import os
os.environ['CUDA_VISIBLE_DEVICES']='0,1' #此处输入想调用的GPU编号,若不进行设置,模型训练时将调用所有GPU资源
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习模型训练tips&典型报错解决方案(持续更新) 的相关文章

随机推荐

  • GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源

    GPT 高仿 问世 GPT Neo 最大可达GPT 3大小 已开源 近日 有个名叫 EleutherAI的团队 创始成员为 Connor Leahy Leo Gao和Sid Black 宣布推出GPT Neo开源项目 可用于复现GPT系列的
  • 强化学习-论文调研-experience replay

    experience replay 论文调研 一 论文概要 1 Hindsight Experience Replay 2017 NeurIPS 在奖励稀疏的情况下 要用强化学习算法训练是很困难的 本文提出一种通过增设不同的目标 增加状态转
  • Amazon Linux 2上面安装Amazon Corretto 8(JDK)

    shell 启用Amazon Linux 2 中的aws yum扩展库 sudo amazon linux extras enable corretto8 安装jre sudo yum install java 1 8 0 amazon c
  • spring cloud jackson自定义文本转换器

    由于 spring jackson default property inclusion 配置失效 所以得自定义文本转换器 废话不多说上代码 Configuration EnableWebMvc public class WebAppCon
  • pytorch中torchvision.utils包下的save_image函数

    雷郭出品 函数的用途 将NCHW的tensor以网格图的形式存储到硬盘中 该图也叫做雪碧图sprite image 如下图所示 将多张图以网格的形式拼凑起来 每张图的大小是28 28 单通道 那宽高如何确定 我们可以来看看该函数的源码 de
  • K8S的DaemonSet控制器

    1 什么是DaemonSet DaemonSet确保全部 或者一些 Node上运行一个pod的副本 当有Node加入集群时 也会为他们新增一个pod 当有Node从集群移除时 这些pod也会被回收 删除DaemonSet将会删除它创建的所有
  • 牛客剑指offer之【JZ13 机器人的运动范围】

    1 题目 2 示例解读 示例1输入的第一个参数为1 即threshold的值 第二 三个参数分别为2 3 即一个二行三列的格子 返回行坐标和列坐标的数位之和大于 threshold 的格子数 为3 具体如下 3 解题思路 根据题目分析可得
  • Android之使用PackageManager取得程序的包名、图标等

    图 Model代码 public class AppInfo private String appLabel private Drawable appIcon private Intent intent private String pkg
  • vue3中使用vuex状态管理

    vue3和vue2中使用vuex 基本一样 首先是配置vuex store下 index js为总文件 import createStore from vuex import actions from actions import gett
  • 如何在DIrectFB显示BMP图片

    下载directfb extra 编译安装好就行了 里面有bmp文件接口 接下来显示bmp和显示png方法是一样的
  • Android优雅的进行混淆——使用@Keep注解

    转自 https www jianshu com p be7ec1819d2f 综述 对于ProGuard工具想必我们都不陌生 它能够通过移除无用代码 使用简短无意义的名称来重命名类 字段和方法 从而能够达到压缩 优化和混淆代码的目的 最终
  • Centos7安装使用Docker

    Centos7安装使用Docker 系统环境与软件版本说明 名称 详情 系统环境 CentOS Linux release 7 5 1804 Core Docker docker ce 18 06 1 ce 3 el7 Docker安装 官
  • 电子学会 青少年软件编程等级考试 C语言 8 级

    8级 2022 9 01 道路 POJ 1724 ROADS POJ 1724 ROADS 望穿秋水 晴的博客 CSDN博客 roads daima POJ No 3352 道路建设 Road Construction POJ No 335
  • 抖音seo账号矩阵源码系统

    1 开通多个抖音账号 并将它们归纳为一个账号矩阵系统 2 建立一个统一的账号管理平台 以便对这些账号进行集中管理 包括账号信息 内容发布 社区交互等 3 招募专业的运营团队 对每个账号进行精细化运营 包括内容制作 社区互动 数据分析等 4
  • c语言输入姓名输出姓和名_C输入和输出

    c语言输入姓名输出姓和名 Input means to provide the program with some data to be used in the program and Output means to display dat
  • Eclipse注释中文格式没对齐

    遇到的问题 一格式化 号就出现以下情况 老是对不齐 解决的办法 java code style formatter edit 去掉Enable block comment formatting复选框 然后把下面的数字调大一点就可以了 如果不
  • FPGA实现ADC采样芯片ADS8688的采样

    在电机控制中 一般需要对电机三相电流Iu Iv Iw采样 并通过采样补偿 坐标变换等将采样电流反馈值输出到电流环闭环控制 中 除此之外 还需要对母线电压 驱动器温度进行采样 监控采样值 以此为根据 来对运行中的驱动器做过压 过温保护 ADS
  • FPGA时序约束(一)基本概念入门及简单语法

    文章目录 一 建立时间和保持时间是什么 二 时序分析分类 三 时钟约束方法 3 1 时钟约束 3 2 输入延时约束 3 3输出延时约束 3 4时序例外 四 时序约束语法补充 文章目前大部分参考明德扬时序约束 只是一个学习总结 侵权删 原文链
  • mysql入坑之路(12)windows 部署MySQL,tar方式手动添加服务进行程序管理

    1 CTRL R 打开运行窗口 输入regedit点击确定打开注册表编辑器 2 找到HKEY LOCAL MACHINE SYSTEM CurrentControlSet Services 3 新建项 MYSQL服务 4 添加项内参数和值
  • 深度学习模型训练tips&典型报错解决方案(持续更新)

    一 Pytorch页面文件太小 无法完成操作 1 可能是python安装根目录磁盘虚拟内存不足 应增大虚拟内存 虚拟内存默认为C盘的2GB 2 可能是对应磁盘空间不足 需清理磁盘空间 3 如使用win10系统 Datalodar可能出现问题