Tensorflow:如何在模型训练过程中实时监控 GPU 性能?

2024-04-15

我是 Ubuntu 和 GPU 新手,最近在我们的实验室中使用了一台配备 Ubuntu 16.04 和 4 个 NVIDIA 1080ti GPU 的新 PC。该机还拥有i7 16核处理器。

我有一些基本问题:

  1. 为 GPU 安装 Tensorflow。我猜想,它会自动优先考虑 GPU 使用吗?如果是这样,它是一起使用所有 4 个,还是使用 1 个,然后在需要时招募另一个?

  2. 我可以在模型训练期间实时监控 GPU 使用/活动吗?

我完全理解这是基本的硬件内容,但对这些具体问题的明确明确的答案会很棒。

EDIT:

根据此输出 - 这真的是说我的每个 GPU 上的几乎所有内存都已被使用吗?


  1. Tensorflow 不会自动利用所有 GPU,它只会使用一个 GPU,特别是第一个 GPU/gpu:0

    您必须编写多 GPU 代码才能利用所有可用的 GPU。cifar 多 GPU 示例 https://github.com/petewarden/tensorflow_makefile/blob/master/tensorflow/models/image/cifar10/cifar10_multi_gpu_train.py

  2. 每 0.1 秒检查一次使用情况

    watch -n0.1 nvidia-smi

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow:如何在模型训练过程中实时监控 GPU 性能? 的相关文章

  • 这可能是因为 cuDNN 初始化失败,因此请尝试查看上面是否打印了警告日志消息。 [操作:Conv2D]

    我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包 然后运行我的 CNN 模型时 它工作正常 但当我尝试运行训练模型时 出现错误 这是我的错误报告 Epoch 1 50 UnknownError Tr
  • 如何缓存 ASP.NET 网站以获得更好的性能

    我是一名网页设计师 通常设计不需要更新的企业网站 所以我想将输出缓存一天 我怎样才能做到这一点 此外 任何有关在慢速服务器上提高 ASP NET 性能的建议都被接受 请注意 ASP NET 缓存有一个bug http connect mic
  • VB.NET 是否优化字符串文字的串联?

    如同this https stackoverflow com questions 288794 does c optimize the concatenation of string literals问题 但对于 VB NET 来说 因为我
  • WPF 应用程序在第一次交互(例如单击按钮)后停止/冻结

    我目前在 WPF 中遇到问题 UI 加载正常 但每当进行第一次用户交互时 例如单击按钮 应用程序似乎会停止 或者例如 如果我有两个显示 MessageBox 的按钮 则第一次单击将等待几秒钟 然后显示MessageBox 但任何后续交互都是
  • Oracle Many OR 与 IN () 的 SQL 性能调优 [重复]

    这个问题在这里已经有答案了 我手头没有 解释计划 您能帮忙判断以下哪一个更有效吗 选项1 select from VIEW ABC where STRING COL AA OR STRING COL BB OR STRING COL BB
  • TensorFlow:在输入处获取梯度时性能缓慢

    我正在使用 TensorFlow 构建一个简单的多层感知器 并且我还需要获取神经网络输入损失的梯度 或误差信号 这是我的代码 它有效 cost tf reduce mean tf nn softmax cross entropy with
  • Keras 通过设置种子获得不同的结果[重复]

    这个问题在这里已经有答案了 在keras中 每次运行都有很高的方差和不稳定的性能 为了解决这个问题 根据https keras io getting started faq how can i obtain reproducible res
  • 用于分布式计算的 Tensorflow 设置

    任何人都可以提供有关如何设置张量流以在网络上的许多CPU上工作的指导吗 到目前为止 我发现的所有示例最多只使用一个本地盒子和多个 GPU 我发现我可以在 session opts 中传递目标列表 但我不确定如何在每个盒子上设置张量流来侦听网
  • 动态 SQL 和 where case 哪个更好?

    我需要创建一个带有 12 个参数的存储过程 并使用这些参数的不同组合来过滤查询 所有 12 个参数都不是强制性的 就好像我传递 3 5 或 12 个参数取决于用户输入的搜索输入一样 我可以通过两种方式创建 即使用动态 SQL 查询或使用 C
  • c++11 正则表达式比 python 慢

    嗨我想了解为什么以下代码使用正则表达式进行分割字符串分割 include
  • Native TF 与 Keras TF 性能比较

    我使用本机和后端张量流创建了完全相同的网络 但在使用多个不同参数进行了多个小时的测试后 仍然无法弄清楚为什么 keras 优于本机张量流并产生更好 稍微但更好 的结果 Keras 是否实现了不同的权重初始化方法 或者执行除 tf train
  • 没有带有张量板的图表

    我正在读一本关于 Tensorflow 的书 我发现了这段代码 from future import absolute import from future import division from future import print
  • 哪个更快:堆栈分配或堆分配

    这个问题听起来可能相当简单 但这是我与另一位合作的开发人员进行的辩论 我小心翼翼地在可能的地方进行堆栈分配 而不是堆分配它们 他一边跟我说话 一边看着我 并评论说没有必要 因为他们的表现是一样的 我总是有这样的印象 堆栈的增长是恒定的时间
  • 字符串与 StringBuilder

    我理解之间的区别String and StringBuilder StringBuilder是可变的 但是两者之间有很大的性能差异吗 我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择 是的
  • Xcode“使用性能工具运行”被禁用?

    我正在尝试从我的 Xcode 项目中查找内存泄漏 我不知道发生了什么 我无法选择任何内容Run gt Run with performance tool 事物列表被禁用 请帮助我 我是初学者 问题是我已经删除了构建文件夹并尝试使用性能工具运
  • Tensorflow Hub - 获取模型的输入形状和问题域?

    我正在使用最新版本的tensorflow hub 想知道如何获取有关模型的预期输入形状以及模型属于什么类型的集合的信息 例如 有没有办法以这种方式在 Python 中加载模型后获取有关预期图像形状的信息 model hub load htt
  • 存储 PHP 数组的首选方法(json_encode 与序列化)

    我需要将多维关联数据数组存储在平面文件中以进行缓存 我偶尔可能会遇到需要将其转换为 JSON 以便在我的 Web 应用程序中使用的情况 但绝大多数时候我会直接在 PHP 中使用该数组 在此文本文件中将数组存储为 JSON 或 PHP 序列化
  • R:使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点?

    我有一个 R 包 它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环 很大程度上依赖于 BLAS 和 LAPACK 例程 作为 Fortran 的接口 我使用 Fortran功能 我刚刚读过乔纳森卡拉汉的博客文章 http
  • 安装tensorflow的正确命令

    当尝试在 Anaconda 上安装 Tensorflow 时 我尝试了两种类型的命令 conda install tensorflow gpu工作得很好 然而 当尝试conda install c anaconda tensorflow g
  • 为什么 pandas 在简单的数学运算上比 numpy 更快?

    最近 我观察到 pandas 的乘法速度更快 我在下面的例子中向您展示了这一点 如此简单的操作怎么可能做到这一点 这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组 测量 我使用形状为 10k 10k 的数组 数据框 i

随机推荐

  • 受密码保护的 pdf 中密码字段不可见

    我正在使用 PDF 套件框架来显示 编辑 pdf 文件 它在 macOS 10 12 上严重损坏 有时受密码保护的文件不显示密码字段 有时密码字段在普通文件中可见 我可以使用未记录的 API 来修复此问题 它的问题与隐藏 取消隐藏密码视图有
  • javax.net.ssl.SSLException:SSLSocketFactory 为 null

    我的以下代码有问题 System setProperty javax net ssl keyStoreType pkcs12 System setProperty javax net ssl trustStoreType jks Syste
  • 从核心数据中获取子项总和

    假设我有三个实体 Person 姓名 地址 对多工资 和 对多贷款 Salary 收入 税 相对 对一个人 Bills数量 相对 对一个人 如何执行获取结果如下 John Doe SUM gt 收入 SUM gt 金额 Eva Doe SU
  • ES2015 (ES6) `class` 语法有什么好处?

    我对 ES6 类有很多疑问 使用有什么好处class句法 我读到 public private static 将成为 ES7 的一部分 这是一个原因吗 而且 是class一种不同类型的 OOP 或者它仍然是 JavaScript 的原型继承
  • Android 收到新电子邮件时如何执行一些代码?

    在 Android 中 当新电子邮件 gmail 到达时 如何执行一些代码 在 Android 中 当新电子邮件 gmail 到达时 如何执行一些代码 没有记录的广播Intents当 Gmail 到达时发送出去 Gmail 不是 Andro
  • 处理单数和复数控制器/路由

    我对如何在网络应用程序中处理单数和复数路由和控制器感到有点困惑 该网站是一个简单的报价网站 想想爱因斯坦 莎士比亚等 而不是保险 在项目中 我有一个名为 QuoteController 的控制器 控制器名称是单数 那么这是否意味着控制器应该
  • 检查 csv 列中除一项之外的所有项目 [python pandas]

    我试图弄清楚如何使用 python pandas 检查整个列以验证所有值都是整数 除了一个 一行名称始终有一个浮点数 CSV 示例 name num random1 2 random2 3 random3 2 89 random4 1 ra
  • 使用 Volley android 将发布数据发送到服务器

    我正在尝试使用 Volley 库向服务器发送一些数据 private void registerUser final String email final String username final String password Tag
  • Shadow dom 内的 FontAwesome svg

    我正在尝试在 Web 组件中使用 font Awesome js svg 库 但图标不会显示 这可能吗 我正在尝试在现有的 webforms 项目中实现一个角度组件 而无需 css 和脚本 流血 关于如何做到这一点还有其他建议吗 ifram
  • 如何使用 gtest 对 std::bind 函数进行单元测试?

    我正在尝试为项目中的一些 cpp 文件编写单元测试用例 这里的场景是 我有一个 cpp 文件 只定义了一个公共方法 然后又调用私有方法 这里私有方法在公共方法中作为回调方法被调用 我如何在这里测试私有方法 我将对回调指针进行模拟 但我不知道
  • 如何更新 ListView 中的单行?

    我有一个ListView显示新闻项目 它们包含图像 标题和一些文本 图像加载在一个单独的线程中 带有队列和所有 当下载图像时 我现在调用notifyDataSetChanged 在列表适配器上更新图像 这可行 但是getView 被调用太频
  • .NET Core依赖注入,解析泛型接口

    我在 ASP NET Core 依赖注入方面遇到问题 无法解析 IServiceProvider 的通用接口 这是我的设置 通用接口 public interface IRequest
  • 有没有办法在表达式树中设置“DeclaringType”?

    我正在做一个Func gt 表达 gt Func转换 如果我从方法 下面的第一个示例 创建 Func 它工作得很好 但是如果我使用表达式树 第二个示例 创建函数 它会失败并显示空引用异常当访问时func2 Method DeclaringT
  • 使用字符向量索引命名数据帧的嵌套列表 - R

    我有一个命名数据框的嵌套列表 如下所示 mylist2 lt list list df1 a data frame replicate 2 sample 0 1 5 rep TRUE df2 b data frame replicate 2
  • 在命令行上构建 Windows 8 Phone 应用程序

    我目前正在将现有的跨平台框架移植到 Windows Phone 8 构建过程是完全自动化的 我们使用的是坚如磐石的 CI 系统 我可以从 Visual Studio Express 2012 构建和部署 Windows Phone 8 示例
  • 帮助我使用 jquery 验证插件的远程方法

    任何人都可以帮助我使用jquery远程 验证方法 我的意思是我知道如何在 jquery 部分使用它 谁能告诉我服务器端部分 我正在使用 PHP 和 codeigniter 来做到这一点 考虑下面的例子 myform validate rul
  • 如何使用 jQuery Uniform 库取消选中复选框

    我在取消选中时遇到问题checkbox 看一下我的jsFiddle http jsfiddle net r87NH 我正在尝试 check2 attr checked true I use uniform http pixelmatrixd
  • Spring Web 服务客户端和服务器 - 未找到端点映射

    我正在尝试将基于 Spring WS 的服务器和基于 Spring WS 的客户端连接在一起 在服务器上使用 org codehaus mojo jaxb2 maven plugin 在客户端上使用 org jvnet jaxb2 mave
  • Jenkins Groovy 如何在不结束管道的情况下从 @NonCPS 方法调用方法

    我需要在 Jenkins Pipeline 中解析一些 JSON 并在循环中调用一些常规方法 但是脚本总是在第一个函数调用后退出 这个怎么做 import groovy json JsonSlurper import com cloudbe
  • Tensorflow:如何在模型训练过程中实时监控 GPU 性能?

    我是 Ubuntu 和 GPU 新手 最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器 我有一些基本问题 为 GPU 安装 Tensorf