显存不够，如何训练大型神经网络

2023-10-27

之前写过一篇PyTorch节省显存的文章，在此基础上进行补充
老博文传送门

本篇参考自夕小瑶的卖萌屋公众号

一、单卡加载大型网络

1.1 梯度累加Gradient Accumulation

单卡加载大型网络，一般受限于大量的网络参数，训练时只能使用很小的batch_size或者很小的Seq_len。这里可以使用梯度累加，进行N次前向反向更新一次参数，相当于扩大了N倍的batch_size。

正常的训练代码是这样的：

for i, (inputs, labels) in enumerate(training_set):
  loss = model(inputs, labels)              # 计算loss
  optimizer.zero_grad()								      # 清空梯度
  loss.backward()                           # 反向计算梯度
  optimizer.step()                          # 更新参数

加入梯度累加后：

for i, (inputs, labels) in enumerate(training_set):
  loss = model(inputs, labels)                    # 计算loss
  loss = loss / accumulation_steps                # Normalize our loss (if averaged)
  loss.backward()                                 # 反向计算梯度，累加到之前梯度上
  if (i+1) % accumulation_steps == 0:
      optimizer.step()                            # 更新参数
      model.zero_grad()                           # 清空梯度

Tricks:
batch变相扩大后，要想保持样本权重相等，学习率也要线性扩大或者适当调整，batchNorm也会受到影响(小batch下的均值和方差肯定不如大batch的精准)。
梯度累加Tricks详情：https://www.zhihu.com/question/303070254/answer/573037166

1.2 梯度检查点Gradient Checkpointing

梯度检查点是一种以时间换空间的方法，通过减少保存的激活值压缩模型占用空间，但是在计算梯度时必须重新计算没有存储的激活值。
详情参考：陈天奇的 Training Deep Nets with Sublinear Memory Cost

1.3 混合精度训练

具体实现可参考我的实验：https://github.com/TianWuYuJiangHenShou/textClassifier
混合精度训练在单卡和多卡情况下都可以使用，通过cuda计算中的half2类型提升运算效率。一个half2类型中会存储两个FP16的浮点数，在进行基本运算时可以同时进行，因此FP16的期望速度是FP32的两倍。
在这里插入图片描述

二、分布式训练Distribution Training

2.1 数据并行 Data Parallelism

2.2 模型并行 Model Parallelism

具体理论与实验待续，欢迎来GitHub骚扰

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

神经网络

显存不够，如何训练大型神经网络的相关文章

NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo
Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

我按照以下步骤大致使用 Keras 库训练了一个情感分类器模型使用 Tokenizer 对象类将文本语料库转换为序列使用 model fit 方法构建模型评估这个模型现在为了使用此模型进行评分我可以将模型保存到文件中并从文
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
如何使用 python 中的 spacy 库将句子转换为问题 [请参阅下面的我的代码进行更正]

我需要使用 python 中的 spacy 将任何句子转换为问题我下面的代码太长了我需要做更多的工作才能将任何句子完成为问题格式现在在这段代码中我根据以下条件制定条件是形式需要形式有形式做形式通过检查过去时和现在时输入尼娜拉
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
如何计算两个文本文档之间的相似度？

我正在考虑使用任何编程语言尽管我更喜欢 Python 来从事 NLP 项目我想获取两个文档并确定它们的相似程度常见的方法是将文档转换为 TF IDF 向量然后计算它们之间的余弦相似度任何有关信息检索 IR 的教科书都涵盖了这一点
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
从 Penn Treebank 格式的文本中提取子句

说我有一句话 After he had eaten the cheese Bill went to the grocery 在我的程序中我得到以下输出 PARSE TREE ROOT S SBAR IN After S NP PRP he

随机推荐

Valid Palindrome（有效回文）

Given a string determine if it is a palindrome considering only alphanumeric characters and ignoring cases For example A
解决Host key verification failed.(亲测有效)

哈喽哇今天在访问远程服务器的时候出现了一个小问题一发现问题问题如下图代码 ssh root 108 61 163 242 WARNING REMOTE HOST IDENTIFICATION HAS CHANGED IT IS P
Android NoHttp源码阅读指导

http blog csdn net yanzhenjie1003 article details 52413226 Android NoHttp源码阅读指导版权声明转载必须注明本文转自严振杰的博客 http blog csdn net
jsPlumb 学习笔记

介绍使用svg完成画图四个概念 anchor endpoint在的位置可通过name访问 endpoint connection的一端节点通过addPoint makeSource connect创建 connector 连接线 o
STM32自学笔记--4.利用通用定时器输出PWM（附示例驱动直流电机）

导语上一节讲述了时钟树和基本定时器的配置方法本节先介绍通用定时器和基本定时器的差异然后粗略讲述PWM波原理然后讲述如何配置通用定时器最后进行PWM波驱动电机的示例 PWM 基本定时器计数方式只能向上即1 2 3 4 5 而通用定
国产替代：GD32F4xx替换STM32F4xx系统说明

工程可以直接使用STM32F4xx的工程进行开发芯片的库不需要换成GD的芯片库 Device引脚也可以直接选择STM32F4xx 仿真功能正常串口IAP可以直接使用STM官方的IAP工具进行操作外设差异 STM外部资源的编号是从0开始
java 请求httpclient_HttpClient-使用Java通过HttpClient发送HTTP请求的方法

使用Java通过HttpClient发送HTTP请求前言在目前的一个项目中我们的项目的数据来源内部的一个完善的移动端系统想要集成他们系统的数据就得使用Java发送http模拟前端请求他们的接口由此在项目中使用HttpClient来
CSMA/CD协议（一目了然，看过都说好）

本文参考计算机网络微课堂 1 CSMA CD协议介绍当多个主机同时发送数据时如何解决碰撞冲突问题呢早期的共享式以太网采用载波监听多址接入碰撞检测即CSMA CD协议来解决碰撞冲突问题多址接入MA 多个站连接在一条总线上竞
【统计学】一篇文章读懂stata相关性系数矩阵输出加星号（*）显著水平学术论文

学术论文里面常用到的相关分析结果通常需要针对不同显著性水平进行标记例如下图有如下数据需要得到下图其中 p lt 0 01 p lt 0 05 p lt 0 1 一函数的准备连玉君老师的提供的分支下载仅仅需要注册即可下载 pwc
nas计算机服务器被encrypted勒索病毒攻击怎么办？服务器中了勒索病毒如何解密？

在计算机安全领域 encrypted勒索病毒是一种危险的恶意软件它会加密受害者的文件并要求支付赎金来解密这些文件这种病毒经常对企业机构和个人产生影响对经济和社会稳定产生威胁当我们受到encrypted勒索病毒的攻击时我们需要了
大数据常用度量单位

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中居左居右 Sma
selenium处理滑块验证码（最简单的滑块）

解决上面的滑块验证这种只要用鼠标点击并移动指定距离就可以完成验证 x轴实现 Time 2023 4 20 15 59 Author Wenny File start py import json import time from sel
Tomcat结合Nginx一起使用

1 背景 tomcat既是一个servlet和jsp容器也是一个轻量级的web服务器它既可以处理动态内容也可以处理静态内容为什么还需要结合nginx一起使用原因 1 tomcat处理html的能力不如nginx 处理静态内容的速度
LVS四层网络的高性能多种模式(NAT/DR/TUN)负载均衡

文章目录网络负载均衡网络 1 应用层 2 传输控制层提供端到端的服务 TCP UDP TCP 面向连接的可靠传输方式三次握手建立连接四次分手双方相互通知断开并确认断开连接 netstat natp 三次握手 gt 数据传输
深度学习入门（一）：神经网络基础

一深度学习概念 1 定义通过训练多层网络结构对位置数据进行分类或回归深度学习解决特征工程问题 2 深度学习应用图像处理语言识别自然语言处理在移动端不太好计算量太大了速度可能会慢 eg 医学应用自动上色 3 例子使用k最
React项目使用husky lint-staged 进行代码提交前的检查

当项目配置了eslint stylelint这些代码风格规范的校验时会让所有开发者写出来的代码风格基本一致但是如果有开发者他没有去配置IDE里的一些自动修复代码风格的选项那么提交到代码仓库的代码还是五花八门的所有我们要在提交仓库前做
最新去水印小程序源码，支持图集，功能齐全

搭建条件服务器一个备案域名一个环境配置 NGINX php7 3 mysql5 6 可自定义更换接口支持任意接口带流量主微擎后端无需授权搭建直接使用详细教程后台可任意开关流量主id 无需前端 1 激励视频插屏广告视频广
取字典的第一个值

proxy http http 180 107 243 177 4257 https http 180 107 243 177 4257 print list proxy values 0 输出 http 180 107 243 177 4
P2P协议简介

最近因为有些需要业务大文件分发传统文件分发策略都是中心化要么是推送要么是拉取中心节点很容易成为瓶颈而P2P的点对点去中心化能很好的解决这个问题 P2P协议 P2P是英文Peer to Peer的简称大家对它并不陌生找种子下电
显存不够，如何训练大型神经网络

之前写过一篇PyTorch节省显存的文章在此基础上进行补充老博文传送门本篇参考自夕小瑶的卖萌屋公众号一单卡加载大型网络 1 1 梯度累加Gradient Accumulation 单卡加载大型网络一般受限于大量的网络参数训练时

热门标签