MxNet系列——how_to——model_parallel_lstm

2023-05-16

博客新址: http://blog.xuezhisd.top
邮箱：xuezhisd@126.com

使用模型并行的方式在多个GPUs上训练LSTM

由于复杂的数据依赖，LSTM评价很困难。LSTM的训练过程，在反向传播阶段有更严重的逆序的数据依赖，更加难以并行化。获取有关LSTM更通用信息，请查看优秀的简介（作者：Christopher）有关使用模型并行的方式在多个GPUs上训练LSTM的资料，请查看 example/model-parallelism-lstm/。

模型并行：将多个GPUs作为流水线

最近，在应用机器学习中，有很多关于模型并行的热烈讨论。它最初是为GoogleNet中的超大卷积层设计的。我们借鉴了一个网络层位于一个GPU上的想法。模型并行的基元是神经网络模型的网络层。它带来的好处是GPU没有必要将所有网络层的参数保存在内存中了。这降低了大规模任务对内存要求，例如，机器翻译。

screen shot 2016-05-06 at 10 13 16 pm

在上图中，不同的LSTM模型位于不同的GPUs上。GPU 1完成第一层的（第一个句子的）计算之后，输出结果传递给GPU 2。同时，GPU 1 获取下一个句子并开始训练。这和数据并行明显不同，因为在每一次迭代的最后，没有更新共享模型的冲突。绝大多数的通信发生在不同GPUs之间的流水线式（先后顺序）的传递中间结果。

在这个实现中，网络层定义在 lstm_unroll()。

划分工作负载

为了在不同GPUs上划分网络，实现模型并行需要有关训练任务的丰富知识。尽管它需要详细的分析（已经超出了该节内容的范围），你可以应用一些通用的原则：

为了避免数据传输，将相邻层定义在同一个GPU上。
为了避免流水线的瓶颈，需要均衡GPUs之间的负载。
记住不同的网络层有不同的计算-内存属性。

screen shot 2016-05-07 at 1 51 02 am

浏览以下上图中的两个流水线。他们都有八个网络层，一个解码层和一个编码层。根据第一个原则，将所有相邻层放在不同GPUs上是不明智的。我们也想均衡不同GPUs上的负载。尽管LSTM层比编码/解码层消耗更少的内存，但因为展开LSTM的依赖性，它们会花费更多的计算时间。因此，左边的流水线的负载更加均衡，因此比右边的更快。

在这个实现中，网络层在 lstm.py中划分和在 lstm_ptb.py中使用 group2ctx 选项配置。

在模型并行中使用 Bucketing

为了在模型并行中使用 bucketing，你需要为每一个bucket把LSTM展开，以为每一？生成一个执行器。关于模型时如何约束的细节，请查看 lstm.py。

另一方面，因为模型并行划分模型/网络层，输入数据必须变换/转置成一致的形状。更多细节，请查看 bucket_io。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mxnet

How

model

parallel

LSTM

MxNet系列——how_to——model_parallel_lstm 的相关文章

Rails 使用缩写对模型进行非正统命名

在我正在构建的应用程序中我使用以下命令在数据库中存储 XML 文件acts as tree协会我想给班级起个名字XMLElement但这会偏离轨道因为大写是非标准的它正在寻找XMLElement从文件名xml element rb
Tensorflow：如何使用dynamic_rnn从LSTMCell获取中间细胞状态（c）？

默认情况下函数dynamic rnn仅输出隐藏状态称为m 对于每个时间点可以通过如下方式获得 cell tf contrib rnn LSTMCell 100 rnn outputs tf nn dynamic rnn cell inp
如何在 django 中指定索引类型？（btree 和 hash 对比等）

就像标题所说如何在 django 模型中的字段上指定我想要的索引类型 class Person age models IntegerField db index True 现在怎么办我如何确保它是一个btree index而不是一个ha
反转博客条目和评论的显示顺序，Ruby on Rails

我是 Rails 新手所以可以在这里使用一些帮助我已经按照几个教程创建了一个博客其中包含评论甚至还有一些 AJAX 花哨的内容但我仍然坚持一些我希望很简单的事情博客和评论的默认显示是首先列出最旧的我如何反转它以在顶部显示最新条
Rails 在模型中验证值在数组内

我有一个表格我可以在其中传递一个字段命名 type我想要检查它的值是否在允许类型的数组内以便任何人不得发布不允许的类型数组看起来像 allowed types type1 type2 type3 type4 type5 type6 ty
Django与领域和自身的多对多关系独特

我尝试使用语言和内容创建帖子并将其与同一页面的其他版本相关联但我陷入困境 class Page models Model content models TextField language models CharField max le
Java 的 C++ 解析器/模型

我想知道是否有人知道可以在 Java 中以编程方式使用的现有 C 解析器代码模型我正在寻找类似于 Eclipse CDT 的东西它可以用作 Java 的库并且不依赖于 Eclipse 提前致谢您不想构建自己的 C 解析器它会杀了
无法销毁多对多关系中的记录

我是 Rails 新手所以我确信我犯了一个简单的错误我在两个模型之间建立了多对多关系 User and Group 它们通过连接模型连接GroupMember 这是我的模型删除了不相关的内容 class User lt ActiveR
如何从 model+ModelForm 获取文本区域？

模型 py gt from django db import models from django forms import ModelForm from datetime import date import datetime from
Rails：尝试渲染为 JSON 时 attr_accessor 不显示

在我的应用程序中我有一个如下的模型 class Init lt ActiveRecord Base attr accessor clientAvailability attr accessible returnCode returnMes
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
张量流 LSTM 模型中的 NaN 损失

以下网络代码应该是经典的简单 LSTM 语言模型一段时间后开始输出 nan 损失在我的训练集上这需要几个小时而且我无法在较小的数据集上轻松复制它但在认真的训练中这种情况总是会发生 Sparse softmax with cros
f-score：ValueError：分类指标无法处理多标签指标和连续多输出目标的混合

我正在尝试计算模型所做的预测的微 F 测量我使用带有 Keras 和 Tensorflow 的 word2vec 矢量来训练模型我使用 scikit 库来计算 mirco F 度量但该函数会抛出此消息 ValueError Class
Keras：嵌入 LSTM

在 LSTM 的 keras 示例中用于对 IMDB 序列数据进行建模 https github com fchollet keras blob master examples imdb lstm py https github com
(Django) (外键问题) model.person_id 不能为 NULL

我知道这在 Django 圈子里似乎是一个被过度询问的问题但我不敢说我还没有找到解决方案我的模型 from djago import User class InfoPersonal models Model person models
Django 中级模型用户

我想创建一个模型其中用户拥有多家公司一定数量的股份看来我应该使用 Django 中间模型关系但我不确定如何将中间模型应用到内置 Django 用户模型目前公司与股东用户之间存在多对多关系如何为每个特定的公司股东关系添加股份数
如何使用 django 更新会计应用程序中的余额？

我正在学习 Django 尝试制作一个会计应用程序来跟踪我的开支等我使用两种模型创建数据库一种用于帐户一种用于操作但我不知道如何在每次操作时更新我的余额我在想也许每次我保存一个新操作时我都会通过覆盖操作模型的保存方法来更新余
zend框架找不到模型类？

Yall 我有一个简单的问题这可能是一个简单的配置问题但是我定义了一个模型当我尝试从控制器访问它时失败模型位于模型目录中当我查看快速启动应用程序时看来这应该可行这是我的模型我的控制器停止了这是控制器代码
如何从模型调用辅助方法？

我使用 MongoDB 作为我的 Rails 应用程序中的数据库和 MongoID gem 我想从模型中调用辅助方法after create回调方法这怎么可能我的模型代码是 class Department include Applic
Caffe 的 LSTM 模块

有谁知道 Caffe 是否有一个不错的 LSTM 模块我从 russel91 的 github 帐户中找到了一个但显然包含示例和解释的网页消失了以前是http apollo deepmatter io http apollo deep

随机推荐

PCL系列——三维重构之移动立方体算法

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com PCL系列 PCL系列读入PCD格式文件操作PCL系列将点云数据写入PCD格式文件PCL系列拼接两个点云PCL系列从深
解决Ubuntu中文显示为乱码

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 1 安装所需软件 sudo apt get install zh autoconvert sudo apt get insta
hexo教程系列——hexo安装教程

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 本文详细描述了如何在Github上 xff0c 使用hexo部署博客安装Hexo 安装node js node js官方下载
Python中类成员函数均为虚函数的理解

python中类成员函数均为虚函数我们可以通过下面的函数见识其威力 class A def foo self print 39 a 39 class B A def foo self print 39 b 39 for x in A B
MxNet系列——Windows上安装MxNet

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 开发环境操作系统 xff1a Win7 64bit C 43 43 编译器 xff1a Visual Studio 2010
Eigen教程1 - 基础

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 固定大小的矩阵和向量参考链接 xff1a http eigen tuxfamily org dox 2 0 Tutorial
Eigen教程2 - 入门

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 安装Eigen 无需安装只需将Eigen位置添加到include路径中 Demo 1 MatrixXd xff0c X表示动
Eigen教程3 - 稀疏矩阵操作

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 稀疏矩阵操作操作和求解稀疏问题需要的模块 xff1a SparseCore SparseMatrix 和 SparseVec
Eigen教程4 - 稀疏矩阵快速参考指南

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 本文对稀疏矩阵SparseMatrix的主要操作进行了总结首先 xff0c 建议先阅读 Eigen教程2 稀疏矩阵操作关于
Eigen教程5 - 求解稀疏线性方程组

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com Eigen中有一些求解稀疏系数矩阵的线性方程组由于稀疏矩阵的特殊的表示方式 xff0c 因此获得较好的性能需要格外注意查看
Eigen教程6 - Matrix-free solvers

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com Matrix free solvers 像ConjugateGradient 和 BiCGSTAB这样的迭代求解器可以用在 m
Eigen教程7 - Eigen和Matlab的比较

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com Eigen和Matlab比较参考 http eigen tuxfamily org dox AsciiQuickRefere
MxNet系列——how_to——perf

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 性能下面是一些技巧 xff0c 以尽可能的获取MXNet的最佳性能数据对于输入数据 xff0c 需要注意以下内容 xff
MxNet系列——how_to——visualize_graph

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 如何将神经网络可视化为计算图该章节描述了如何在MXNet中使用在mx viz plot network来可视化 xff08
修改antlr错误信息输出格式的方法

找到 antlr DefaultFileLineFormatter java 修改类DefaultFileLineFormatter的函数getFormatString 我将其修改如下以适应vc的错误信息输出格式 package antl
MxNet系列——how_to——torch

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 如何将MXNet用作Torch的前后端本章节描述了如何将MXNet用作Torch的两个主要功能 xff08 前端和后端 xf
MxNet系列——how_to——smart_device

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 将深度学习库压缩成一个文件 xff0c 以便移植到智能设备中深度学习系统是复杂的 xff0c 并且常常有些依赖环境将深度学
MxNet系列——how_to——new_op

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 如何创建新的操作符网络层本节内容描述了创建新的MXNet操作符 xff08 或网络 xff09 的过程我们已经尽了最大努
MxNet系列——how_to——multi_devices

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 在多个CPU GPUs上以数据并行方式运行MXNet MXNet 支持在多个CPUs和GPUs上进行训练其中 xff0c 这
MxNet系列——how_to——model_parallel_lstm

博客新址 http blog xuezhisd top 邮箱 xff1a xuezhisd 64 126 com 使用模型并行的方式在多个GPUs上训练LSTM 由于复杂的数据依赖 xff0c LSTM评价很困难 LSTM的训练过程 xff

热门标签