分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步

2024-05-09

我使用两个工作程序/副本和一个参数服务器。喜欢

--ps_hosts='hosta.com:2222' --worker_hosts='hosta.com:2223,hostb.com:2223'

使用tf.train.SyncReplicasOptimizer like

opt = tf.train.SyncReplicasOptimizer(
            opt,
            replicas_to_aggregate=2,
            replica_id=FLAGS.task_id,
            total_num_replicas=2,
            variables_to_average=variables_to_average)

从日志中我看到由于跨机器网络通信，worker0（hosta.com：2223）比worker1（hostb.com：2223）快得多。看起来worker0 没有等待worker1 的梯度。即使我终止了worker1的作业，worker0仍在处理。并且worker0有很多重复的日志，例如

INFO:tensorflow:Worker 0: 2016-04-21 03:24:02.659749: step 29010, loss = 0.40(812.0 examples/sec; 0.315  sec/batch)
INFO:tensorflow:Worker 0: 2016-04-21 03:24:02.990509: step 29010, loss = 0.59(775.3 examples/sec; 0.330  sec/batch)
INFO:tensorflow:Worker 0: 2016-04-21 03:24:04.650522: step 29013, loss = 0.56(774.0 examples/sec; 0.331  sec/batch)
INFO:tensorflow:Worker 0: 2016-04-21 03:24:04.989555: step 29013, loss = 0.47(756.3 examples/sec; 0.338  sec/batch)
INFO:tensorflow:Worker 0: 2016-04-21 03:24:06.549120: step 29016, loss = 0.49(816.6 examples/sec; 0.313  sec/batch)
INFO:tensorflow:Worker 0: 2016-04-21 03:24:06.867229: step 29016, loss = 0.48(806.1 examples/sec; 0.318  sec/batch)

那么，tf.train.SyncReplicasOptimizer 不应该挂起并等待所有的replicas_to_aggregate 工作线程吗？

The tf.train.SyncReplicasOptimizer只需要它接收来自的梯度replicas_to_aggregate在聚合和应用它们之前执行不同的步骤，但不要求它们来自不同的流程。你的worker0似乎运行速度至少是worker1，并且正在完成之前的两个步骤worker1完成一步。

正如您所注意到的，这并不是分布式资源的有效利用！我建议尝试平衡您的系统，以便从一台或多台与两个工作人员具有相同带宽的机器提供参数。一种可能性是添加另一个参数服务器，运行在hostb.com:2222，这样（大约）一半的参数对于每个工作人员来说都是本地的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步的相关文章

Ray：如何在一个 GPU 上运行多个 Actor？

我只有一个 GPU 我想在该 GPU 上运行许多 Actor 这是我使用的方法ray 下列的https ray readthedocs io en latest actors html https ray readthedocs io en
错误：分配具有形状的张量时出现 OOM

在使用 Apache JMeter 进行性能测试期间我面临着初始模型的问题错误分配形状为 800 1280 3 和类型的张量时出现 OOM 通过分配器浮动在 job localhost replica 0 task 0 device
在 Keras 模型中删除然后插入新的中间层

给定一个预定义的 Keras 模型我尝试首先加载预先训练的权重然后删除一到三个模型内部非最后几层层然后用另一层替换它我似乎找不到任何有关的文档keras io https keras io 即将做这样的事情或从预定义的模型中删除
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
在 Tensorflow 中使用 tf.while_loop 更新变量

我想更新 Tensorflow 中的变量因此我使用 tf while loop 例如 a tf Variable 0 0 0 0 0 0 dtype np int16 i tf constant 0 size tf size a def
将 tf.contrib.layers.xavier_initializer() 更改为 2.0.0

我该如何改变 tf contrib layers xavier initializer tf 版本 gt 2 0 0 所有代码 W1 tf get variable W1 shape self input size h size initi
如何使用tensorFlow C++ API中的fileWrite摘要在Tensorboard中查看它

无论如何我是否可以获得与 FileWriter 相对应的张量名称以便我可以写出我的摘要以在 Tensorboard 中查看它们我的应用程序是基于C 的所以我必须使用C 来进行训练 FileWriter 不是张量 import ten
在按顺序读取的多个特征文件上训练 Keras 模型以节省内存

当我尝试读取大量功能文件时我遇到了内存问题见下文我想我应该分割训练文件并按顺序读取它们做到这一点的最佳方法是什么 x train np load path features x train npy y train np load p
在优化器期间保持变量不变

我有一个损失张量 L 的 TensorFlow 计算图它取决于 2 个 tf Variables A 和 B 我想在保持 B 固定的同时在变量 A 上运行梯度上升 A L 与 A 的梯度反之亦然在 B 上运行梯度上升 B L 与 B
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
Tensorflow“feed_dict”：对键值对使用相同的符号得到“TypeError：无法将 feed_dict 键解释为张量”

我正在使用构建线性回归的 Tensorflow 示例我的代码如下 import numpy as np import tensorflow as tf train X np asarray 3 3 4 4 5 5 6 71 6 93 4
如何在google colaboratory上使用GPU升级tensorflow

目前google colaboratory使用tensorflow 1 4 1 我想升级到1 5 0版本每次当我执行时 pip install upgrade tensorflow命令 notebook实例成功将tensorflow版本升
Tensorflow - 获取队列中的样本数量？

对于性能监控我想关注当前排队的示例我正在平衡用于填充队列的线程数量和队列的最佳最大大小我如何获得这些信息我正在使用一个tf train batch 但我猜这些信息可能在下面的某个地方FIFOQueue 我本以为这是一个局部变量但我
Keras如何在Relu激活函数中使用max_value

keras activation py 中定义的 Relu 函数为 def relu x alpha 0 max value None return K relu x alpha alpha max value max value 它有一个
缩小轴 1 的形状为空 [x,0]

我正在尝试训练 SVHN 街景门牌号码数据集用于张量流中的对象检测对数字进行一些基本的 OCR 到目前为止我已经成功地遵循了对象检测张量流指南中的宠物训练示例当我基于样本 fast rcnn resnet101 config 训练
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
在 Tensorflow2 中将图冻结为 pb

我们通过图形冻结保存来自 TF1 的许多模型 tf train write graph self session graph def some path get graph definitions with weights output g
tf-models：official.vision.detection Mask-RCNN 无效参数：indices[1,63] = [1, -1] 未索引到参数形状 [2,100,112,112]

我正在尝试根据此处提供的官方 MaskRCNN 模型训练 Mask RCNN 模型张量流模型 https github com tensorflow models tree master official vision detectio
张量流中检查点之间的间隔

如何指定张量流中两个连续检查点之间的间隔里面没有选项tf train Saver来指定这一点每次我使用不同数量的全局步骤运行模型时我都会得到检查点之间的新间隔 The tf train Saver https www tensorf

随机推荐

所有与 JSF 相关的 web.xml 上下文参数名称和值的概述 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 JavaServer Faces 有多种
Tweepy：tweepy.errors.Unauthorized：401 需要授权

我期待使用以下 Tweepy 代码从我的 Twitter 个人资料中提取一些数据 import tweepy client tweepy Client consumer key consumer key consumer secret co
使用 jQuery 选择访问过的链接

我正在尝试通过 jQuery 选择所有访问过的链接这是 HTML div class question summary a class question hyperlink Stuff a div If question hyperlin
使用比较器对对象进行排序给出空指针

我正在尝试对包含 3 张卡的 ArrayList 进行排序我正在用比较器来做这件事这是否太过分了 Card getRank 返回 2 到 14 之间的整数我完全不知道哪里出了问题我之前已经成功完成了这个并与我的其他代码进行了比较
用 let 或 const 声明的变量是否被提升？

我已经使用 ES6 一段时间了我注意到虽然用var按预期被吊起 console log typeof name undefined var name John 声明的变量let or const吊装似乎存在一些问题 console log
我无法让 HealthKit 工作。缺失的权利

我很难让 HealthKit 为我的 iOS 应用程序工作我已经完成了所有步骤到目前为止我已经找到了 http jademind com blog posts healthkit api tutorial 似乎没有一个能解决我的问题当我
PHP：如何访问根目录之外的下载文件夹？ [复制]

这个问题在这里已经有答案了我如何创建一个 PHP 脚本页面允许会员买家下载存储在根目录之外的下载文件夹中的压缩文件产品我正在使用 Apache 服务器请帮忙谢谢保罗 G 您可能会在 soac 提供的链接中找到一些更好的信息
我的 Perl 脚本中的 findnodes 语句有什么问题？

我有一个简单的 xml 文件如下所示
Rails 3 公司帐户具有许多用户，限制对数据的访问

我想知道在我的应用程序中构建身份验证授权的最佳方法我希望有许多公司帐户可能使用子域帐户有很多用户用户只能访问自己或具有相同帐户的其他用户创建的记录我所做的研究提供了许多混合搭配的想法以奇怪而美妙的方式组合 devise ca
即使我调用 srand(time(NULL)) [重复]，rand 函数在每次运行时都会给我相同的结果

这个问题在这里已经有答案了我有问题我想使用rand 获得 0 到 6 之间的随机数但每次运行它总是给我 4 即使我打电话srand time NULL include
在 R 中使用 gamlss::lms 选择百分位数曲线

我正在使用 gamlss 包中的示例代码来绘制百分位数曲线 library gamlss data abdom lms y x data abdom n cyc 30 它正在绘制自己的一组百分位数曲线如何选择只绘制第 10 50 和 90
左右并排放置两个 UILabels，而不知道左标签中文本的字符串长度

在 iPhone fb 应用程序的照片选项卡中对于每个表格视图单元格他们都会放置相册标题后跟相册中的图片数量例如第一张专辑 22 最后也是最后的 12 我认为有两个标签一个用于标题一个用于数字因为数字实际上是不同的 UICo
API 31 上是否有官方方法来提供文件关联，可能使用 pathSuffix/pathAdvancedPattern？

背景现代桌面操作系统上的一个众所周知的功能是能够处理文件允许用户从文件管理器和其他应用程序中打开它们作为文件关联配置问题到目前为止对于用户和开发人员来说在 Android 上设置文件类型关联并不是一件很方便的事情在 An
使用chartJS显示带有连接点的折线图

我想使用 ChartJS 绘制这样的图表但我找不到连接第一个和最后一个点并在该连接区域内显示单个唯一点的解决方案我还需要用不同的颜色设置每个点的样式我尝试探索 ChartJS 文档但找不到解决方案是否有任何图表绘制库具有这些功能或如
对需要发送标头的项目进行单元测试

我目前正在与 PHPUnit 合作尝试在我正在编写的内容的同时开发测试但是我目前正在编写会话管理器并且在这样做时遇到了问题 Session 处理类的构造函数是 private function construct if header
从 NSString 获取子字符串，直到到达特定单词

假设我有这个NSString Country Address Tel number 我该如何获取之前的子字符串Tel 国家地址然后我该如何获取后面的子字符串Tel 数字使用 NSScanner NSString string Count
如何将带有参数的事件处理程序添加到 Javascript 中的元素数组中？

我有一个三步流程完全依赖 JavaScript 和 Ajax 来加载数据并为流程从一个步骤到下一个步骤设置动画更复杂的是步骤之间的过渡向前和向后是动画的当用户通过过程锚点的进度时会显示当前步骤和先前的步骤如果他们单击先前的步
如何隐藏 django-admin 中的某些字段？

class Book models Model title models CharField null True type models CharField author models CharField 我在 models py 中有一个
tlb 文件是否具有关联架构？

我有一个 32 位 DLL 旨在通过 com 模型和关联的 tlb 文件进行访问该 DLL 似乎是 x86 有没有办法从 x64 程序访问这种 DLL tlb 文件与 x86 x64 无关吗我问这个问题是因为有些功能似乎可以工作其他功
分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步

我使用两个工作程序副本和一个参数服务器喜欢 ps hosts hosta com 2222 worker hosts hosta com 2223 hostb com 2223 使用tf train SyncReplicasOptimi

分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步

分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步 的相关文章

随机推荐

热门标签

分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步的相关文章