TensorFlow 图内复制示例

2023-12-07

我想在具有多个 ps 和工作线程的多 GPU 集群中试验 TensorFlow 的图内复制。这CIFAR-10 多 GPU 示例图中显示了单台机器上的同步复制。有没有可用的示例可供我参考，例如图间训练的示例训练程序?

一般来说，对于分布式训练，我们更喜欢图间复制而不是图内复制，因为图间复制比图内复制（当前的实现）更具可扩展性。图内复制的主要问题是，它目前要求您为网络构建图结构的多个副本，并将它们具体化在单个位置（即分布式主节点）。当你有数百个副本时，这会将主服务器变成瓶颈；相比之下，在图间复制中，每个副本仅具有本地运行的图的副本。

图间复制的缺点是它使同步训练变得更加困难，因为您现在需要同步多个训练循环，而不是具有单个训练操作的单个循环。这tf.train.SyncReplicasOptimizer用在分布式 Inception 训练器提供了一种通过图间复制进行同步训练的方法。

但是，如果您想尝试图内复制，您可以通过修改来完成为每个塔分配设备的线路在 CIFAR-10 示例中。您可以将塔分配给不同的 GPU，而不是在同一进程中将塔分配给不同的 GPU。不同的工人任务。例如：

worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]

for worker_device in worker_devices:
  with tf.device(worker_device):
    # Execute code for building the model replica.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

TensorFlow 图内复制示例的相关文章

在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
在张量流的卷积层中使用自定义过滤器

我一直在从各种教程中学习 Tensorflow 并且想知道是否可以定义一个自定义过滤器供卷积网络使用例如如果我知道特征中有有意义的结构使得每个其他特征都是相关的我想定义一个看起来像 0 1 0 1 0 1 的过滤器 tf nn co
无法使用tensorflow 2.0.0 beta1保存模型

我已尝试了文档中描述的所有选项但没有一个允许我将模型保存在tensorflow 2 0 0 beta1中我还尝试升级到也不稳定 TF2 RC 但这甚至破坏了我在测试版中工作的代码所以我很快就回滚到测试版请参阅下面的最小复制代码我
keras 模型拟合：ValueError：无法找到可以处理输入的数据适配器：，

我正在构建一个简单的 CNN 模型用于多类分类训练和测试数据位于data path根据所需的类子目录flow from directory的函数ImageDataGenerator 这是我根据数据构建和训练模型的代码 from tenso
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
Tensorflow：如何通过 tf.gather 传播梯度？

我在尝试传播损失函数相对于代表收集索引的变量的梯度时遇到一些问题类似于空间变换器网络中所做的事情 https github com tensorflow models blob master transformer spatial tra
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
在 Tensorflow 中使用迁移学习是否需要预定义图像大小？

我打算使用预先训练的模型例如fast rcnn resnet101 pets用于 Tensorflow 环境中的对象检测如所述here https tensorflow object detection api tutorial rea
为什么平均百分比误差（mape）非常高？

我已获得代码掌握机器学习 https machinelearningmastery com time series prediction lstm recurrent neural networks python keras 我修改了mod
如何在张量流中使用带有估计器的衰减学习率？

我正在尝试将 LinearClassifier 与具有衰减学习率的 GradientDescentOptimizer 一起使用 My code def main load data features np load data feature
TensorFlow：使用不同的输入张量重新运行网络？

假设我在 TensorFlow 中有一个典型的 CNN 模型 def inference images images 4D tensor of batch size IMAGE SIZE IMAGE SIZE 3 size conv 1 c
提交用于 Tensorflow 对象检测的 Google Cloud ML 训练作业时出现错误消息

尝试提交 Tensorflow 对象检测任务的 Google Cloud ML 训练作业我正在遵循官方指南 https github com tensorflow models blob master research object de
Tensorflow“feed_dict”：对键值对使用相同的符号得到“TypeError：无法将 feed_dict 键解释为张量”

我正在使用构建线性回归的 Tensorflow 示例我的代码如下 import numpy as np import tensorflow as tf train X np asarray 3 3 4 4 5 5 6 71 6 93 4
如何在google colaboratory上使用GPU升级tensorflow

目前google colaboratory使用tensorflow 1 4 1 我想升级到1 5 0版本每次当我执行时 pip install upgrade tensorflow命令 notebook实例成功将tensorflow版本升
张量流 - 向量中的前 k 个值到二进制向量

假设我有一个带有值的向量 0 4 1 2 8 7 0 2 如何获得前 k 个值的二进制向量 k 3 0 1 0 0 1 1 0 0 in 张量流 TensorFlow 的tf math top k https www tensorflow
Tensorflow：无法在 gradle 中解析

今天早上我打开 Android Studio 时 Gradle 尝试同步时出现以下错误 Error 103 13 Failed to resolve org tensorflow tensorflow android 按照他们的说明Gith
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍

随机推荐

特殊字符和重音字符

我正在为法国客户做一些工作因此需要处理带重音的字符但我遇到了很多困难我希望解决方案很简单并且有人可以向我指出字符串 La For t pour T moin转换为 La For pour T oin 请注意重音字符后面缺少的字符
Wix 卸载快捷方式不起作用

我正在尝试为我的应用程序创建卸载快捷方式并且我正在使用此链接中的确切标记 http wixtoolset org documentation manual v3 howtos files and registry create unins
是否可以让 vs2010 vsix 在本地检查更新？

我正在工作中为 Visual Studio 编写项目结构和代码分析扩展该项目无法发布到 Visual Studio 扩展库有没有什么方法可以管理 Visual Studio 中内置的更新和部署以便团队可以使用扩展并获取更新提示不这
getElementById().style.display 不起作用

我做了一些js代码 div 出现或消失 src js openSearch gt var con document getElementById search bar if con style display none con style
如何限制 QLineEdit 的文本框宽度最多显示四个字符？

我正在使用基于 PySide 的 GUI 我制作了一个一行文本框QLineEdit输入的长度只有四个字符我已经成功应用了这一限制问题是我的文本框比需要的宽即文本后面有很多未使用的空间如何缩短文本框的长度我知道通过使用 Desi
访问 rshiny 中动态生成的输入

我有一个应用程序用户需要将随机生成的元素在本例中为字母分配给组但可以决定使用多少个组因为selectInput其中定义的成员资格是根据用户指定的数字动态生成的命名菜单是自动完成的例如 usergroup1 usergroup2
sqljocky同步查询数据库

我正在尝试使用 sqljocky 同步查询 MySQL 数据库我有一个Load运行查询并获取数据然后将数据导入到User目的我遇到的问题是运行查询的 Future 没有及时返回以将对象返回到调用方法 DataObject user ne
如何将 Matplotlib Axes 对象渲染为图像（作为 Numpy 数组）？

有没有办法将特定 Axes 对象的内容呈现为图像作为 Numpy 数组我知道您可以对整个图形执行此操作但我想获取特定轴的图像我尝试渲染的轴包含一个图像用 imshow 绘制在顶部绘制了一些线条理想情况下渲染的 ndarray
最佳实现：机场/火车站出发板（html/css/jquery）[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案任何人都可以向我指出使用 HTML CSS jQuery 的火车站出发板的实现吗这适合您的需求吗不是我的但执行得很好 http jsfiddl
将 Swift 3 升级到 4，Swift 扩展不再出现在 Objective C 中

我刚刚完成将混合语言项目 objective c 和 Swift 从 Swift 3 升级到 Swift 4 一切似乎都很顺利除了我所有的 Swift 扩展都无法再在 Objective C 中访问我不知道如何获得anySwift 扩展
来自另一个类库的基本控制器在 Web api 中不起作用

我有两个 Web API 项目还有一个MarketController我需要扩展 Api 控制器所以我做到了我创建了一个BaseController类并继承自ApiController像这样 public class BaseCont
计算数百 GB 数据中的子序列

我正在尝试处理一个非常大的文件并计算文件中特定长度的所有序列的频率为了说明我正在做的事情请考虑一个包含序列的小输入文件abcdefabcgbacbdebdbbcaebfebfebfeb 下面代码读取整个文件并获取长度为 n 的第一个
如何在 AngularJS 中检索之前的 URL

我知道我可以使用获取当前 URL location search and location path 但我需要一种方法来获取上一个我可以使用全局变量或类似的变量吗 Angular rootScope将拥有所有应用程序组件的所有信息下面在
将儒略日转换为日/月/年

我的帖子显然不清楚所以我正在努力修复它如果我仍然不清楚请随时告诉我我得到了一个物理变量的数据框每分钟都有一个数据我想将前 4 列转换为单个列 R 中的 d m Y H M GMT Year Julian day Hour Min
如果 Visual Studio 2012 / 2013 中的项目/解决方案中缺少文件，则报告错误/警告

视觉工作室不再支持宏因此以下问题中的答案仅对以前的版本有效如果 Visual Studio 中的项目解决方案中缺少文件则报告错误警告当您构建缺少文件的解决方案时 Visual Studio 2012 2013 是否可以报告错误
在目标包含源的情况下使用 strncpy()

我用 C 编写了一个函数来修剪字符串中的空白字符我关心的是最后一行trim 下面的函数其中源包含在目标中测试用例以及其他一些测试结果都很好复制源和目标位于同一内存中的字符串的全部或部分会导致奇怪的问题吗源代码 include
ORM 学说中的 Substring_index 函数

我必须使用SUBSTRING INDEXsymfony 2 中的学说 ORM 函数我该怎么做现在在查询中使用它会出现未定义的函数错误 Syntax Error line 0 col 299 Error Expected known fu
Django：模板中的嵌套变量

在我的 django 登录模板之一中有一行
将 ImageData 对象（不是画布）转换为图像 dataURL

我想从 ImageData 对象即宽度高度数据创建 dataURL 我意识到画布有这个但我想避免扭曲画布使用主要是alpha预乘即我想避免明显的canvas putImageData步骤 From 这个帖子我可以将任何 arr
TensorFlow 图内复制示例

我想在具有多个 ps 和工作线程的多 GPU 集群中试验 TensorFlow 的图内复制这CIFAR 10 多 GPU 示例图中显示了单台机器上的同步复制有没有可用的示例可供我参考例如图间训练的示例训练程序一般来说对于分布式训练

TensorFlow 图内复制示例

TensorFlow 图内复制示例 的相关文章

随机推荐

热门标签

TensorFlow 图内复制示例的相关文章