Pytorch中使用TensorBoard

2023-05-16

本文记录了如何在Pytorch中使用Tensorboard（主要是为了备忘）

TensorBoard的界面

Pytorch中使用TensorBoard

虽然我本身就会用TensorBoard，但是因为TensorBoard只有在写训练代码的框架的时候才会写，因此实际上写的频率的还是很低的，所以我每次要写训练代码、使用TensorBoard的时候都需要看自己之前写的代码，或者查一下别人写的博客。而且不少博客写的都是一鳞半爪的，不少用法都要查很多博客，久而久之就会觉得很烦。而且很多技巧随着时间的流逝也逐渐的忘记。

因此为了方便以后自己的查询（备忘），同时也是能够留下一个不错的教程，因此决定自己写一个比较全面的TensorBoard的教程。

1. Introduction to TensorBoard

在炼丹的时候，经常需要追踪模型在训练过程中性能的变化，例如：Regression任务中的MSE、分类任务中的准确率、生成（图片）任务中图片的生成质量、此外还有合成语音的质量……

大体上来说，所有需要追踪的数据包括：标量（scalar）、图像（image）、统计图（diagram）、视频（video）、音频（audio）、文本（text）、Embedding等等

除了有大量的数据需要追踪外，我们还需要很好的把这些数据显示出来，即数据的写入和显示（读取）要有异步IO，有的时候服务器在学校的机房托管，因此还需要能够通过内网提供可视化……

因此，在种种需求之下，使用一个网页程序来帮助我们进行数据的追踪就成了一个很好的解决方案。具体来说，网页程序实现了前后端的分离，后端只需要专注于数据的记录，而前端专注于数据的显示。此外，网页程序可以进一步扩展，提供网络服务。

因此，就有了TensorBoard这个网页程序实现了我们上面的需求。TensorBoard最早是TensorFlow中的模块，不过现在经过Pytorch团队的努力，TensorBoard已经集成到了Pytorch中。

TensorFlow官网上的TensorBoard

TensorBoard的教程主要分为两部分，一部分是如何使用TensorBoard（即在训练过程中添加数据，然后在浏览器中监视训练的这整个pipeline）的教程，另外一部分是TensorBoard如何添加不同种类数据（即TensorBoard的API）的教程

2. TensoBoard Pipeline

上面说道，TensorBoard是分为前段显示和后端数据记录的，因此其Pipeline也分为两步：

第一步：后端数据记录
第二步：前段查看数据

A. 后端数据记录

类似于Flask和Django中把后端程序（服务器）被抽象为了一个类，然而这个类中提供了方法来开启和关闭服务，TensorBoard中也是把后端服务器抽象成了一个类：SummaryWriter，不过不同的是，TensorBoard中的SummaryWriter类在被声明后就开启了对应的服务，直到我们使用了SummaryWriter关闭服务的API。

此外，还有一个不同的之处在于，TensorBoard的前段数据显示和后端数据记录是异步I/O的，即后端程序（SummaryWriter类的实例）将数据写入到一个文件中，而前端程序读取文件中的数据来进行显示。因此后端所谓的服务指的就是数据的记录，而非提供前端的显示。数据记录的实现方式即通过SummaryWriter类中的方法

然后在开启了后端程序的服务器之后，我们就可以通过各种API来添加数据了

0. 导入包

我们首先导入包

import torch
from torch.utils.tensorboard import SummaryWriter

1. SummaryWriter类

SummaryWriter声明之后就会开启后端数据记录的服务，因此在实例化该类的时候我们就需要保存数据的位置。声明保存数据的位置有好几种方式

SummaryWriter的签名如下：

class torch.utils.tensorboard.writer.SummaryWriter(log_dir=None, comment='', purge_step=None, max_queue=10, flush_secs=120, filename_suffix='')

其中：

log_dir (str)：指定了数据保存的文件夹的位置，如果该文件夹不存在则会创建一个出来。如果没有指定的话，默认的保存的文件夹是./runs/现在的时间_主机名，例如：Feb04_22-42-47_Alienware，因此每次运行之后都会创建一个新的文件夹。在写论文的时候我们会涉及一系列实验，从不同的角度来说明一些问题，例如我们的假设是否正确、模型性能是否更好……因此最好不要用默认的实现来直接作为存放数据的文件夹，而是使用具有含义的二级结构，例如：runs/exp1。这样的话，所有的实验1的数据都在这个文件夹下，这样我们就可以方便的进行比较。
comment (string)：给默认的log_dir添加的后缀，如果我们已经指定了log_dir具体的值，那么这个参数就不会有任何的效果
purge_step (int)：TensorBoard在记录数据的时候有可能会崩溃，例如在某一个epoch中，进行到第 T + X T+X T+X个step的时候由于各种原因（内存溢出）导致崩溃，那么当服务重启之后，就会从 T T T个step重新开始将数据写入文件，而中间的 X X X，即purge_step指定的step内的数据都被被丢弃。
max_queue (int)：在记录数据的时候，在内存中开的队列的长度，当队列慢了之后就会把数据写入磁盘（文件）中。
flush_secs (int)：以秒为单位的写入磁盘的间隔，默认是120秒，即两分钟。
filename_suffix (string)：添加到log_dir中每个文件的后缀。更多文件名称设置要参考tensorboard.summary.writer.event_file_writer.EventFileWriter类。

因此，一个成熟的数据记录方式就是在runs文件夹下按照一定的意义来划分二级文件夹，例如网络结构1、网络结构2、实验1、实验2等等。

2. 添加数据

想后端服务程序添加数据使用的是SummaryWriter类中的一系列方法，这些方法都以add_开头，例如：add_scalar、add_scalars、add_image……具体来说，所有的方法有：

import pprint
pprint.pprint([i for i in SummaryWriter.__dict__.keys() if i.startwith("add_")])

add_hparams，add_scalar，add_scalars，add_histogram，add_histogram_raw，add_image，add_images，add_image_with_boxes，add_figure，add_video，add_audio，add_text，add_onnx_graph，add_graph，add_embedding，add_pr_curve，add_pr_curve_raw，add_custom_scalars_multilinechart，add_custom_scalars_marginchart，add_custom_scalars，add_mesh

后面在第二部分会详细的讲解每个方法，这里先讲共性。

每个方法根据需要添加的数据的不同，方法中具体的参数也不同，但是所有的方法终归都是要添加数据的，因此会存在相同的参数。具体来说，相同的参数包括：

tag (str)：用于给数据进行分类的标签，标签中可以包含父级和子级标签。例如给训练的loss以loss/train的tag，而给验证以loss/val的tag，这样的话，最终的效果就是训练的loss和验证的loss都被分到了loss这个父级标签下。而train和val则是具体用于区分两个参数的标识符（identifier）。例如我们现在有两个tag，cos/dense和cos/sparse，那么最终展示下来的效果是这样的。此外，只支持二级标签
globa_step (int)：首先，每个epoch中我们都会更新固定的step。因此，在一个数据被加入的时候，有两种step，第一种step是数据被加入时当前epoch已经进行了多少个step，第二种step是数据被加入时候，累计（包括之前的epoch）已经进行了多少个step。而考虑到我们在绘图的时候往往是需要观察所有的step下的数据的变化，因此global_step指的就是当前数据被加入的时候已经计算了多少个step。计算global_step的步骤很简单，就是 g l o b a l _ s t e p = e p o c h ∗ l e n ( d a t a l o a d e r ) + c u r r e n t _ s t e p global\_step=epoch * len(dataloader) + current\_step global_step=epoch∗len(dataloader)+current_step
wlltime (int)：从SummaryWriter实例化开始到当前数据被加入时候所经历时间（以秒计算），默认是使用time.time()来自动计算的，当然我们也可以指定这个参数来进行修改。这个参数一般不改

以添加标量（add_scalar）为例，演示一下添加数据的方法的用法。其他的方法第二部分会讲

writer = SummaryWriter()
for epoch in range(n_epoch := 10):
    for step in range(total_step := 100):
        # 训练代码读取数据来进行显示。
        # ...
        # ...

        # 计算 loss
        loss = np.sin(step * 0.01)

        # 添加标量
        writer.add_scalar(tag="loss/train", scalar_value=loss,
                          global_step=epoch * total_step + step)

然后可以看到的效果如下：

添加数据的效果

3. 关闭SummaryWriter

我们刚才说过，SummaryWriter这样的后端程序在被实例化出来就自动开启了数据记录的服务，而我们在完成了所有的数据记录只有，需要关闭服务。

关闭服务很简单，就是直接调用close方法即可

writer.close()

4. Summary

最终，总结一下整个后端数据记录的流程，其实就三步：

实例化SummaryWriter类，同时指定数据保存的文件夹
利用SummaryWriter类提供的方法，添加不同类型的的数据
关闭SummaryWriter类，中止服务

B. 前端显示数据

因为TensorBoard是异步I/O的网页服务程序，因此后端程序在把数据写入到文件的时候，前端程序可以读取数据来进行显示。

具体来说，后端数据记录程序会把所有的数据记录到同一个文件夹下的多个文件内，以方便前端显示程序多线程加速读取。因此，前端显示程序在启动的时候需要指定读取的文件夹

1. 默认使用

前端显示程序提供了CLI（命令行）界面，因此我们直接在命令行启动就行了

tensorboard --logdir=数据文件夹

其中数据文件夹就是在声明SummaryWriter时候指定的文件夹。

例如：

tensorboard --logdir=./Feb05_01-00-48_Alienware/

而在我们启动前端显示程序之后，就会得到一个端口，访问这个端口就能看到显示的效果

访问该端口就能看到程序

2. 修改端口

有的时候，在服务器上训练模型的时候为了避免和别人的TensorBoard的端口撞了，我们需要指定新的端口。或者有的时候我们在docker容器里跑TensorBoard，我们通过一个端口映射到主机上去，这个时候就需要指定TensorBoard使用特定的端口。

具体来说就是通过CLI的--port参数

tensorboard --logdir=数据文件夹 --port=端口

例如我们现在指定上面的例子端口为10000

tensorboard --logdir=./Feb05_01-00-48_Alienware/ --port=10000

修改后的端口

C. Summary

最后，总结一下使用TensorFlow的Pipeline，首先在训练的过程中使用SummaryWriter来记录数据，记录的过程中需要注意文件夹需要来合理的划分。

然后我们在前端查看的时候，运行tensorboard的CLI程序即可，一般用的最多的就是--log_dir和--port两个参数。

此外，如果是服务器上的话，那么tensorboard的CLI运行在服务器上，然后在自己的电脑上，利用浏览器，通过内网来查看训练过程。

3. SummaryWriter APIs

上面讲完了SummaryWriter的Workflow/Pipeline，剩下的就是SummaryWriter添加数据的API的讲解了。关于这些API的话，正如上面介绍的，他们都以add_开头，具体有：

标量类：add_scalar、add_scalars、add_custom_scalars、add_custom_scalars_marginchart、add_custom_scalars_multilinechart、
数据显示类：
- 图像：add_image、add_images、add_image_with_boxes、add_figure
- 视频：add_video
- 音频：add_audio
- 文本：add_text
- Embedding：add_embedding
- 点云：add_mesh
统计图：add_histogram、add_histogram_raw、add_pr_curve、add_pr_curve_raw
网络图：add_onnx_graph、add_graph
超参数图：add_hparams

因为我目前主要在做CV、点云和NLP，对于语音、视频设计的比较少，因此关于这些API以后用到了我再慢慢补充。

其实主要就是对官网上的翻译，可以直接看官网上的介绍：https://pytorch.org/docs/stable/tensorboard.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

tensorboard

Pytorch中使用TensorBoard 的相关文章

二维数组的按行 numpy.isin [重复]

这个问题在这里已经有答案了我有两个数组 A np array 3 1 4 1 1 4 B np array 0 1 5 2 4 5 2 3 5 是否可以使用numpy isin二维数组按行排列我想检查一下是否A i j is in B
使用 pytorch 获取可用 GPU 内存总量

我正在使用 google colab 免费 Gpu 进行实验并想知道有多少 GPU 内存可供使用 torch cuda memory allocated 返回当前占用的 GPU 内存但我们如何使用 PyTorch 确定总可用内存 PyT
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
如何在分布式环境中使用 Estimator API 在 Tensorboard 中显示运行时统计信息

本文 https www tensorflow org get started graph viz runtime statistics说明了如何将运行时统计添加到 Tensorboard run options tf RunOptions
更改 TensorBoard 中的图像滑块步骤

TensorBoard 1 1 0 的图像历史我想更精确地设置滑块的位置在带有 7 的黑色图像顶部以便能够选择任何步骤现在我只能选择例如在步骤2050或2810之间这可能吗也许源代码中的某个位置对 10 常数进行了硬编码我在那
Tensorboard 错误：当前数据集没有活动的仪表板

我正在尝试使用 Tensorboard 但每次使用 Tensorflow 运行任何程序时当我转到 localhost 6006 查看可视化时都会收到错误这是我的代码 a tf add 1 2 b tf multiply a 3 with
张量流中的正则化损失是什么？

当使用 Tensorflows 对象检测 API 训练对象检测 DNN 时它的可视化平台 Tensorboard 会绘制一个名为regularization loss 1 这是什么我知道什么是正则化使网络善于通过各种方法例如 dro
如何平衡 GAN 中生成器和判别器的性能？

这是我第一次使用 GAN 我面临着判别器多次优于生成器的问题我正在尝试重现PA模型来自本文 http openaccess thecvf com content ICCV 2017 papers Sajjadi EnhanceNet Si
torch-1.1.0-cp37-cp37m-win_amd64.whl 在此平台上不受支持的滚轮

我在开发 RNN 时需要使用 pyTorch 每当我尝试安装它时我都会收到一条错误消息指出 torch 1 1 0 cp37 cp37m win amd32 whl 在此平台上不受支持 pip3安装https download pyto
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
Google Tensorflow 中的事件文件

我正在使用 Tensorflow 构建神经网络我想在 Tensorboard 上显示训练结果到目前为止一切正常但我对 Tensorboard 的事件文件有疑问我注意到每次运行 python 脚本时它都会生成不同的事件文件当我
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
如何使用Python计算多类分割任务的dice系数？

我想知道如何计算多类分割的骰子系数这是计算二元分割任务的骰子系数的脚本如何循环每个类并计算每个类的骰子先感谢您 import numpy def dice coeff im1 im2 empty score 1 0 im1 numpy
Pytorch 损失为 nan

我正在尝试用 pytorch 编写我的第一个神经网络不幸的是当我想要得到损失时遇到了问题出现以下错误信息 RuntimeError Function LogSoftmaxBackward0 returned nan values in
访问 AWS 上的 Tensorboard

我正在尝试访问 AWS 上的 Tensorboard 这是我的设置张量板 tensorboard host 0 0 0 0 logdir train 在端口 6006 上启动 TensorBoard b 39 您可以导航到http 172
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens

随机推荐

[Java多线程-基础] 避免线程死锁问题(ReentrantLock的使用)

ReentrantLock 的设计初衷是为了提供一种比 synchronized 更加灵活和可控的锁机制与 synchronized 相比 xff0c ReentrantLock 提供了更多的功能 xff0c 如可重入性公平锁和中断锁等
IDEA插件：智能代码生成器，附带注释和性能/安全检测功能

x1f680 1 安装插件在插件中搜索关键字 biot 点击安装 x1f680 2 代码生成右侧的侧边栏点击biot后在下方的输入框中输入你要问的内容 x1f680 3 biot AI 选中选区中的代码点击鼠标右键让ai来帮你改代码
安装Windows Server 2016 服务器标准版

注意事项 xff1a 安装带桌面版的管理员密码设置 xff0c 要注意大小写加数字 xff0c 不然会设置失败安装文件下载 xff1a MSDN 我告诉你 PE U盘微PE 服务器的驱动 xff0c 可以自己到对应服务器厂家的官网上
第五节：基于Pytorch的相关可视化

第五节 xff1a 基于Pytorch的相关可视化在Pytorch发布后 xff0c 网络及训练过程的可视化工具也相应的被开发出来来帮助用户监督所建立的模型的结构和训练过程本章将讲解HiddenLayer库 xff0c HiddenLa
第六节：Pytorch实现全连接神经网络

第六节 xff1a Pytorch实现全连接神经网络前面的五节中 xff0c 我们讲解了使用PyTorch搭建一个神经网络中需要的需要各种技巧 xff0c 包括 xff1a 网络的搭建选择不同的实践技巧 xff08 优化器选择学习率下
使用Visual Studio Code开发Arduino踩坑日记(持续更新)

使用Visual Studio Code开发Arduino踩坑日记持续更新文章目录使用Visual Studio Code开发Arduino踩坑日记持续更新 1 在browse path中未找到包含文件问题描述问题分析解决思路解决过
小白安装Ubuntu 18.04 LTS

文章目录小白安装Ubuntu 18 04 LTS作者 xff1a 王仕鸿日期 xff1a 2020 10 10 前言 xff08 可跳过 xff09 Ubuntu介绍操作系统介绍Ubuntu介绍安装Ubuntu 18 04 LTS步骤一
1_ROS基础

ROS基础本章讲解ROS中最基础的概念不明白这些概念是没法学懂ROS的学习了这些概念后面我们将通过实操来在实践的过程中进一步体会 ROS是什么 ROS Robot Operating System 机器人操作系统是一个提供一系列程
2_ROS中的命令行工具

ROS中的命令行工具 ROS中为我们提供了丰富的命令行工具帮助我们进行代码的编写调试测试框架的搭建数据的显示等等大图如下所有的命令大致可以分为四类分别是运行相关命令编译相关命令包制作管理相关命令项目创建相关命令下面进
3_ROS创建工作空间和功能包

3 ROS创建工作空间和功能包前面我们讲解了ROS中的核心概念和使用ROS进行开发时候必须用到的命令行工具下面我们就正式开始ROS中的开发我们首先从创建工作空间和功能包开始 1 工作空间WorkSpace 工作空间是ROS中非常重要的
4_Publieher的编程实现

4 Publisher的编程实现我们前面讲解了如何创建工作空间和功能包但是我们都仅仅只创建了一个空的工作空间和功能包什么都没有实现我们想要进一步为功能包添加功能就不可避免的需要添加Publisher和Subscriber 下面我们
1.Latex介绍

Latex介绍本人鸿神目前就读于XJTU 是一个即将开始科研的小白既然做科研未来就无法避免发表论文而发表论文就需要用到一系列的工具 Latex就是其中之一谨以此文记录我的科研路也希望Latex这一系列文章能够帮到各位 1 什么是
2.Latex安装和TeXworks Editor基础

二 Latex安装和TeXworks Editor使用教程上一章我们讲解了什么是Latex和为什么我们要学习Latex 从这一章开始我们就要正式开始学习Latex 就像前面所讲的 Latex包含编译器和编辑器我们需要在编辑器中编写夹杂代
关于“ErrorFlash Download failed“Cortex-M3”的解决办法

首先 xff0c 将仿真器连接电脑 xff0c 然后打开KEIL xff0c 点击FLash gt Erase xff0c 擦除Flash试一下如果擦除不成功 xff0c 那么应该是的STM32的Flash被锁了 xff0c 要解锁一下
3.Latex语法基础:命令与环境

三 Latex语法基础命令与环境前面我们已经做好了开始编写Latex的一切准备工作从这章开始我们将开始讲解Latex语法本章将讲解Latex语法的基础命令与环境 1 命令与环境命令什么是命令不同于其他编程语言 C C 43
Arduino多种传感器使用方法

Arduino项目智能窗户前段时间参加了一个Arduino的比赛具体内容就是用Arduino设计一个项目出来我在的队伍的设计的项目就是智能窗户智能窗户可以采集本地传感器采集到的环境参数根据参数具有一套内部的逻辑判断可以对温度
Paxos算法

Paxos算法 Paxos算法是一系列共识算法中的一个其目的就是为了解决共识一致性问题这个Github连接中详细的列出了多种共识算法还有一些工程实践的例子腾讯 Zookeeper Handpoo下的一个分布式框架 Handoop是
Python中的推导式

推导式 Compression 推导式 Compression 是Python语言的一大特色相比于其他语言而言推导式使得Python能够编辑的进行循环创建出特定的字典列表等可迭代对象使用推导式可以避免代码的冗长简化代码风格使得
A* 算法 Python实现

A 算法 Python实现最近考试周没时间封装的很好代码分两部分定义和调用部分定义部分 span class token keyword import span numpy span class token keyword as
Pytorch中使用TensorBoard

本文记录了如何在Pytorch中使用Tensorboard xff08 主要是为了备忘 xff09 Pytorch中使用TensorBoard 虽然我本身就会用TensorBoard xff0c 但是因为TensorBoard只有在写训练代

Pytorch中使用TensorBoard

Pytorch中使用TensorBoard

1. Introduction to TensorBoard

2. TensoBoard Pipeline

A. 后端数据记录

0. 导入包

1. SummaryWriter类

2. 添加数据

3. 关闭SummaryWriter

4. Summary

B. 前端显示数据

1. 默认使用

2. 修改端口

C. Summary

3. SummaryWriter APIs

Pytorch中使用TensorBoard 的相关文章

随机推荐

热门标签