如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息

2024-04-01

本文 https://www.tensorflow.org/get_started/graph_viz#runtime_statistics说明了如何将运行时统计添加到 Tensorboard：

    run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)
    run_metadata = tf.RunMetadata()
    summary, _ = sess.run([merged, train_step],
                          feed_dict=feed_dict(True),
                          options=run_options,
                          run_metadata=run_metadata)
    train_writer.add_run_metadata(run_metadata, 'step%d' % i)
    train_writer.add_summary(summary, i)
    print('Adding run metadata for', i)

它在 Tensorboard 中创建以下详细信息：

这在一台机器上相当简单。如何在分布式环境中使用估算器来做到这一点？

我使用以下基于 ProfilerHook 的挂钩，让估算器将运行元数据输出到模型目录中，并稍后使用 Tensorboard 检查它。

import tensorflow as tf
from tensorflow.python.training.session_run_hook import SessionRunHook, SessionRunArgs
from tensorflow.python.training import training_util
from tensorflow.python.training.basic_session_run_hooks import SecondOrStepTimer

class MetadataHook(SessionRunHook):
    def __init__ (self,
                  save_steps=None,
                  save_secs=None,
                  output_dir=""):
        self._output_tag = "step-{}"
        self._output_dir = output_dir
        self._timer = SecondOrStepTimer(
            every_secs=save_secs, every_steps=save_steps)

    def begin(self):
        self._next_step = None
        self._global_step_tensor = training_util.get_global_step()
        self._writer = tf.summary.FileWriter (self._output_dir, tf.get_default_graph())

        if self._global_step_tensor is None:
            raise RuntimeError("Global step should be created to use ProfilerHook.")

    def before_run(self, run_context):
        self._request_summary = (
            self._next_step is None or
            self._timer.should_trigger_for_step(self._next_step)
        )
        requests = {"global_step": self._global_step_tensor}
        opts = (tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)
            if self._request_summary else None)
        return SessionRunArgs(requests, options=opts)

    def after_run(self, run_context, run_values):
        stale_global_step = run_values.results["global_step"]
        global_step = stale_global_step + 1
        if self._request_summary:
            global_step = run_context.session.run(self._global_step_tensor)
            self._writer.add_run_metadata(
                run_values.run_metadata, self._output_tag.format(global_step))
            self._writer.flush()
        self._next_step = global_step + 1

    def end(self, session):
        self._writer.close()

要使用它，需要像往常一样创建估计器实例 (my_estimator)，无论它是预制的还是自定义的估计器。所需的操作称为将上述类的实例作为钩子传递。例如：

hook = MetadataHook(save_steps=1, output_dir=<model dir>)
my_estimator.train( train_input_fn, hooks=[hook] )

运行元数据将放置在模型目录中，并且可以由 TensorBoard 检查。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

tensorboard

如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息的相关文章

使用 PIP 从 Github 安装 Python 包

我已经看到文档表明您可以通过以下方式使用 pip 安装托管 Python 包的 Github sudo pip install e git git github com myuser myproject git egg myproject
从 RabbitMQ 迁移到 Amazon SQS [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们的初创公司目前正在使用RabbitMQ with Python Django 对于消息队列现在我们计划转移到Amazon SQS其高可用性
如何计算Numpy数组中特定范围内的值？

我有一个 NumPy 值数组我想计算有多少个值在特定范围内例如 x25 我已阅读有关计数器的信息但它似乎仅对特定值有效对值范围无效我已经搜索过但没有找到任何关于我的具体问题的信息如果有人能指出我正确的文档我将不胜感激谢谢
将 3D 矩阵转换为级联 2D 矩阵

我有一个3Dpython中的矩阵如下 import numpy as np a np ones 2 2 3 a 0 0 0 2 a 0 0 1 3 a 0 0 2 4 我想转换这个3D矩阵到一组2D矩阵我努力了np reshape但这并没
UnicodeDecodeError：“charmap”编解码器|安装 pip python-stdnum==1.8 时出错

我对编程还很陌生所以请耐心等待当我为正在使用的模块安装一些必需的软件包时我无法安装python stdnum 1 8 我收到以下错误消息 File C Users 59996 AppData Local Programs Python
在 Windows 7 上安装 Python Fabric 时出现问题

我正在尝试使用以下指南在 Windows 7 上安装 Python Fabric在 Windows 上安装 Python 和 Fabric http www jonnyreeves co uk 2011 08 getting python
卷积神经网络 (CNN) 输入形状

我是 CNN 的新手我有一个关于 CNN 的问题我对 CNN 特别是 Keras 的输入形状有点困惑我的数据是不同时隙的二维数据比方说10X10 因此我有 3D 数据我将把这些数据输入到我的模型中来预测即将到来的时间段所以我
在 Linux 上创建线程与进程的开销

我试图回答在 python 中创建线程与进程有多少开销的问题我修改了类似问题的代码该问题基本上运行一个带有两个线程的函数然后运行带有两个进程的相同函数并报告时间 import time sys NUM RANGE 100000000
Pandas 将 NULL 读取为 NaN 浮点数而不是 str [重复]

这个问题在这里已经有答案了给定文件 cat test csv a b c NULL d e f g h i j k l m n 其中第三列被视为str 当我对列执行字符串函数时 pandas已阅读NULLstr 作为一个NaN float
加速 Numpy 数组上的循环

在我的代码中我有一个 for 循环它对多维 numpy 数组进行索引并使用每次迭代时获得的子数组进行一些操作看起来像这样 for sub in Arr do stuff using sub 现在使用完成的东西sub是完全矢量化的所
scrapy蜘蛛如何将值返回给另一个蜘蛛

我正在爬行的网站包含许多玩家当我点击任何玩家时我都可以进入他的页面网站结构是这样的
使用 Click 在 python 中创建命令行应用程序

我正在使用 Python 创建一个命令行应用程序Click http click pocoo org 接受名称作为输入的库但如果未输入名称则返回默认值这是我到目前为止的代码 hello py import click click ve
如何在 pygame 中水平翻转图像？

这是在 pygame 如何翻转图像假设一个图像猪向右看时向左看我按向左箭头键然后保持这样即使我不按任何键或者按向上和向下箭头键那么当我按向右箭头键时如何再次将其切换回向右看并使其保持这种状态即使我不按任何键或按向上和向
正则表达式 - Python - 删除前导空格

我使用正则表达式在文本文件中搜索产品一词然后我使用该搜索的起点和终点来查看该列并提取整数有些实例 A 列有我不想要的前导空格我只想将数字如 B 列中的数字打印到文件中没有前导空格正则表达式中的正则表达式有条件的 pr
如何使用 Anaconda Python 执行 .py 文件？

我刚刚在我的 Windows 计算机上下载并安装了 Anaconda 但是我在使用命令提示符执行 py 文件时遇到问题如何让我的计算机了解 python exe 应用程序位于 Anaconda 文件夹中以便它可以执行我的 py 文件
Python 的最佳实践：assert command() == False [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
将误差线添加到 3D 绘图

我找不到在 matplotlib 的 3D 散点图中绘制误差条的方法基本上对于以下代码段 from mpl toolkits mplot3d import axes3d import matplotlib pyplot as plt f
识别左侧由 delta 链接的簇，右侧由不同 delta 链接的簇

考虑排序后的数组a a np array 0 2 3 4 5 10 11 11 14 19 20 20 如果我指定了左增量和右增量 delta left delta right 1 1 这就是我期望的集群分配方式 a 0 2 3 4 5 1
在 django 视图中执行阻塞请求

在我的 django 应用程序的一个视图中我需要执行相对较长的网络 IO 操作问题是其他请求必须等待该请求完成即使它们与该请求无关我做了一些研究并偶然发现了 Celery 但据我了解它用于执行独立于请求的后台任务所以我不能使用任

随机推荐

将字符串解析为小数、逗号和句点

如何将字符串解析为十进制以便它适用于两种格式带逗号和句点 Fact public void foo var a 1 1 var b 1 1 Assert Equal Parse a Parse b private decimal Par
使用 rpm-maven-plugin 的多模块 Web 应用程序示例？

有谁知道使用 Maven 构建 RPM 的 Web 应用程序吗这RPM Maven 插件 http mojo codehaus org rpm maven plugin 提供构建 RPM 的功能但缺乏文档具体来说我正在寻找一个包含多
如何重新分配 R 星对象中的单元格/像素值

我是 R 中的 star 包的新手并且正在尝试弄清楚如何为二维 star 对象栅格包中的栅格中的单元格分配新值使用光栅我可以执行以下操作 gt library raster gt library stars gt tif syste
在 ThreeJS 中将 2D 鼠标坐标转换为世界 XZ 坐标

我需要将鼠标屏幕坐标转换为 XZ 平面上的 ThreeJS 世界坐标我发现这个工作代码可以将鼠标位置转换为 XY 世界坐标但我不知道如何修改它以获取 XZ 坐标 var vector new THREE Vector3 vector s
使用 MemoryCache 的多个实例

我想使用以下方法向我的应用程序添加缓存功能System Runtime Caching命名空间并且可能希望在多个位置和不同的上下文中使用缓存为此我想使用多个 MemoryCache 实例然而我看到here http msdn mi
当我运行测试用例时，实体管理器已成功注入，但在运行 Web 应用程序时抛出 NullPointerException

我有一个奇怪的问题我正在使用 applicatioContext bean 使用 PersistenceContext 注入实体管理器但问题是当我运行测试用例时实体管理器已成功注入但在运行 Web 应用程序时会抛出 NullPoi
有没有办法让 Roo 接受 StringIO 对象来代替文件？

我正在尝试编写一些单元测试其中涉及Roo http roo rubyforge org 读取 Excel 2007 文件我的单元测试文件中有一个十六进制字符串的 Excel 文件该文件又被输入到 StringIO 实例中我不能简单地
React/Jest/Enzyme - 等待时间不够长

我有一个等待多个承诺的函数 const function async gt await function1 await function2 await function3 我想测试 function3 被调用 it calls functi
如何处理返回布尔值的 GraphQL 查询？

需要在用户注册过程中检查电子邮件是否可用或已被占用目标是使用 GraphQL API 服务器快速查询并让它告诉我们电子邮件是否可用或已被占用使用 GraphQL 处理简单布尔类型情况的一般最佳实践是什么以下是我的想法但我不确定这是
Linux 上跨共享库的单例的多个实例

正如标题所提到的我的问题很明显我详细描述了该场景在singleton h文件中有一个名为singleton的类通过单例模式实现如下 singleton h Created on 2011 12 24 Author bourneli
删除所有可观察集合？

我正在寻找可以从 ObservableCollection 中删除所选项目的 Linq 方式例如 List 的 RemoveAll 方法我太新了无法为自己创建扩展方法有什么方法可以通过 Lambda 表达式从 ObservableC
如何从 /proc/meminfo 计算系统内存使用情况（如 htop）

运行htop命令以如下格式显示内存使用情况 1 92G 5 83G 问题我应该如何解释取自的值 proc meminfo为了以编程方式计算所使用的内存我正在寻找类似的东西 Linux 中以百分比形式准确计算 CPU 使用率 https
从纵向旋转到横向时，iPad 布局会放大

我有一个添加到 viewport 元标签 width device width initial scale 1 0 在 iPad 上页面在横向模式下加载得很好它可以很好地切换到纵向模式当我将其旋转回横向模式时它会放大页面我必须将其
如何从 Android 应用程序中的异步任务返回位图

好的这段代码就在 Android 开发者网站上它设置了一个ImageView to a Bitmap class BitmapWorkerTask extends AsyncTask
Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth
解决这个问题的正则表达式是什么？

我有一个 PHP 数组其 URL 如下所示 http example com apps 1235554 http example com apps apple http example com apps 126734 http examp
如何在 WP7 中分解 URI？

是否有一种方法可以访问 WebBrowser 控件中的查询参数或者我们是否必须手动分解字符串例如 http www mysite com paramter 12345 我只需要访问参数的值我知道在使用 xaml 页面时我们有 Quer
为什么有两个类：视图模型和域模型？

我知道使用域模型作为视图模型可能很糟糕如果我的域模型有一个名为 IsAdmin 的属性并且我有一个创建控制器操作来创建用户那么有人可以更改我的表单并使其 POST IsAdmin true 表单值即使我没有在视图中公开这样的文本字段
将字符串转换为 Linq.Expressions 或使用字符串作为选择器？

好吧我现在有一个字符串它具有要计算的表达式值它有说值expr gt expr FieldName 所以我想使用这个字符串作为 Linq 表达式或任何其他查询方式比如Select str 请帮帮我虽然我个人没有使用过它但动态 Li
如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息

本文 https www tensorflow org get started graph viz runtime statistics说明了如何将运行时统计添加到 Tensorboard run options tf RunOptions

如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息

如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息 的相关文章

随机推荐

热门标签

如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息的相关文章