什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor

2024-03-16

我有四个 NVIDIA GTX 1080 显卡，当我初始化会话时，我看到以下控制台输出：

Adding visible gpu devices: 0, 1, 2, 3
 Device interconnect StreamExecutor with strength 1 edge matrix:
      0 1 2 3 
 0:   N Y N N 
 1:   Y N N N 
 2:   N N N Y 
 3:   N N Y N

我还有 2 个 NVIDIA M60 Tesla 显卡，初始化如下所示：

Adding visible gpu devices: 0, 1, 2, 3
 Device interconnect StreamExecutor with strength 1 edge matrix:
      0 1 2 3 
 0:   N N N N 
 1:   N N N N 
 2:   N N N N 
 3:   N N N N

我注意到自上次更新以来，1080 GPU 的输出已从 1.6 更改为 1.8。大概是这样的（记不清了，只是回忆）：

 Adding visible gpu devices: 0, 1, 2, 3
Device interconnect StreamExecutor with strength 1 edge matrix:
     0 1 2 3            0 1 2 3
0:   Y N N N         0: N N Y N
1:   N Y N N    or   1: N N N Y
2:   N N Y N         2: Y N N N
3:   N N N Y         3: N Y N N

我的问题是：

这是什么设备互连?
它对计算能力有什么影响？
为什么不同的 GPU 会有不同的结果？
由于硬件原因（故障、驱动程序不一致......），它会随着时间的推移而改变吗？

TL;DR

这个设备互连是什么？

正如 Almog David 在评论中所述，这可以告诉您一个 GPU 是否可以直接访问另一个 GPU 的内存。

它对计算能力有什么影响？

其唯一的影响是针对多 GPU 训练。如果两个 GPU 具有设备互连，则数据传输速度会更快。

为什么不同的 GPU 会有不同的结果？

这取决于硬件设置的拓扑。一块主板只有那么多 PCI-e 插槽，这些插槽通过同一总线连接。（检查拓扑结构nvidia-smi topo -m)

由于硬件原因（故障、驱动程序不一致......），它会随着时间的推移而改变吗？

我认为顺序不会随着时间的推移而改变，除非 NVIDIA 改变默认的枚举方案。还有一点细节here https://stackoverflow.com/a/26123645/1097517

解释

该消息生成于BaseGPUDeviceFactory::CreateDevices https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/common_runtime/gpu/gpu_device.cc#L978功能。它迭代每对设备按照给定的顺序并打电话cuDeviceCanAccessPeer https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__PEER__ACCESS.html#group__CUDA__PEER__ACCESS_1g496bdaae1f632ebfb695b99d2c40f19e。正如 Almog David 在评论中所说，这只是表明您是否可以在设备之间执行 DMA。

您可以执行一些测试来检查顺序是否重要。考虑以下片段：

#test.py
import tensorflow as tf

#allow growth to take up minimal resources
config = tf.ConfigProto()
config.gpu_options.allow_growth = True

sess = tf.Session(config=config)

现在让我们检查不同设备顺序的输出CUDA_VISIBLE_DEVICES

$ CUDA_VISIBLE_DEVICES=0,1,2,3 python3 test.py
...
2019-03-26 15:26:16.111423: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1511] Adding visible gpu devices: 0, 1, 2, 3
2019-03-26 15:26:18.635894: I tensorflow/core/common_runtime/gpu/gpu_device.cc:982] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-03-26 15:26:18.635965: I tensorflow/core/common_runtime/gpu/gpu_device.cc:988]      0 1 2 3 
2019-03-26 15:26:18.635974: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 0:   N Y N N 
2019-03-26 15:26:18.635982: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 1:   Y N N N 
2019-03-26 15:26:18.635987: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 2:   N N N Y 
2019-03-26 15:26:18.636010: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 3:   N N Y N 
...

$ CUDA_VISIBLE_DEVICES=2,0,1,3 python3 test.py
...
2019-03-26 15:26:30.090493: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1511] Adding visible gpu devices: 0, 1, 2, 3
2019-03-26 15:26:32.758272: I tensorflow/core/common_runtime/gpu/gpu_device.cc:982] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-03-26 15:26:32.758349: I tensorflow/core/common_runtime/gpu/gpu_device.cc:988]      0 1 2 3 
2019-03-26 15:26:32.758358: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 0:   N N N Y 
2019-03-26 15:26:32.758364: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 1:   N N Y N 
2019-03-26 15:26:32.758389: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 2:   N Y N N 
2019-03-26 15:26:32.758412: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 3:   Y N N N
...

您可以通过运行来获得连接的更详细说明nvidia-smi topo -m。例如：

       GPU0      GPU1    GPU2   GPU3    CPU Affinity
GPU0     X       PHB    SYS     SYS     0-7,16-23
GPU1    PHB       X     SYS     SYS     0-7,16-23
GPU2    SYS      SYS     X      PHB     8-15,24-31
GPU3    SYS      SYS    PHB      X      8-15,24-31

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe switches (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing a single PCIe switch
  NV#  = Connection traversing a bonded set of # NVLinks

我相信您在列表中的位置越靠前，转移的速度就越快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

NVIDIA

什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor 的相关文章

如何在最新版本的 Tensorflow 中使用 MultiVariateNormal 分布

I need to use the MultiVariateNormal distribution from the tf contrib distributions MultivariateNormal However in the la
使用张量流实现 RBM

我正在尝试用tensorflow实现RBM 代码如下 rbm py An rbm implementation for TensorFlow based closely on the one in Theano import tensorf
TF 数据 API：如何有效地从图像中采样小块

考虑创建从高分辨率图像目录中采样随机小图像块的数据集的问题 Tensorflow 数据集 API 提供了一种非常简单的方法来实现此目的即构建图像名称的数据集对它们进行排序将其映射到加载的图像然后映射到随机裁剪的补丁然而这种幼稚的
AttributeError：“模块”对象没有 tf.app.run() 的属性“main”

我正在尝试测试一个简短的程序该程序非常简单如下所示 import numpy as np import tensorflow as tf flags tf app flags FLAGS flags FLAGS import tenso
如何在张量流中将TextVectorization保存到磁盘？

我已经训练了一个 TextVectorization 层见下文我想将其保存到磁盘以便下次可以重新加载它我努力了pickle and joblib dump 这是行不通的 from tensorflow keras layers ex
如何将 .pb 文件转换为 .h5。（张量流模型到keras）

我已经使用重新训练了我的模型tensorflow现在想使用keras以避免会话内容我怎样才能转换 pb文件至 h5 import tensorflow as tf from tensorflow keras models import s
导入错误：无法导入名称“transpose_shape”

我正在学习 Coursera Andrew Ng 的深度学习课程使用 YOLO 算法进行对象检测我尝试使用 Windows 和 Anaconda Navigator 在我的 PC 上运行该算法我安装了 Keras 以在 TensorF
Tensorflow：tf.get_collection 未返回范围内的变量

我正在尝试获取变量范围内的所有变量如所解释的here https stackoverflow com questions 36533723 tensorflow get all variables in scope 然而该行tf get
在 Tensorboard 中获取简单的绘图

我正在尝试在张量板上画一个简单的图就像他们在主页上一样如下所示 To understand how this is working I ve wrote the following import tensorflow as tf imp
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
TensorFlow - 根据另一个变量的形状动态定义变量的形状

假设我有一定的张量x其维度未在图初始化时定义我可以使用以下方法获得它的形状 x shape tf shape input x 现在如果我想根据中定义的值创建一个变量x shape using y tf get variable vari
AttributeError：该层从未被调用，因此没有定义的输入形状

我尝试通过创建三个类在 TensorFlow 2 0 中构建自动编码器 Encoder Decoder 和 AutoEncoder 由于我不想手动设置输入形状因此我尝试从编码器的 input shape 推断解码器的输出形状 import
用于多输入图像的 VGG16 网络

我正在尝试将 VGG16 网络用于多个输入图像使用具有 2 个输入的简单 CNN 训练该模型给了我一个 acc 大约 50 这就是为什么我想使用 VGG16 这样的既定模型进行尝试这是我尝试过的 imports from keras a
TensorFlow：训练时参数不更新

我正在使用 TensorFlow 实现分类模型我面临的问题是当我运行训练步骤时我的权重和误差没有更新结果我的网络不断返回相同的结果我根据以下内容开发了我的模型MNIST 示例 https www tensorflow org v
tf.print 什么时候才能真正按预期工作（即打印张量和变量的值）？

首先我使用的是TensorFlow 2 0 我只关心这个版本或更高版本而且我已经太关心这样一个只会产生头痛的软件了 The TensorFlow 文档 https www tensorflow org api docs python t
Google Colab：为什么 CPU 比 TPU 快？

我正在使用 Google colabTPU训练一个简单的Keras模型删除分布式strategy并在CPU比TPU 这怎么可能 import timeit import os import tensorflow as tf from sk
如何使用功能 API 训练 Keras 模型，该模型具有两个输入和两个输出，并使用两个 ImageDataGenerator 方法 (flow_from_directory)

我想使用 Function Keras API 创建一个模型该模型将有两个输入和两个输出该模型将使用两个实例ImageDataGenerator flow from directory 方法从两个不同的目录分别是inputs1和inp
使用 keras.utils.Sequence 多处理和数据库 - 何时连接？

我正在使用 Keras 和 Tensorflow 后端训练神经网络数据集不适合 RAM 因此我将其存储在 Mongo 数据库中并使用子类检索批次keras utils Sequence 一切正常如果我跑的话model fit gene
tf.data.Dataset 迭代器返回 Tensor("IteratorGetNext:1", shape=(None, 16), dtype=int32) 但无法获取张量的值

我正在尝试编写一个自定义模型其中我正在编写一个自定义train step功能我正在从自定义数据生成器创建 tf data Dataset 例如 tds tf data Dataset from generator tdg iter ar
可重用的 Tensorflow 卷积网络

我想重用来自Tensorflow 专业人士的 MNIST CNN 示例 http www tensorflow org tutorials mnist pros index md 我的图像尺寸为 388px X 191px 只有 2 个输出

随机推荐

将密码迁移到 Devise

我正在将用户数据库从 PHP 迁移到 Rails 我已经安装了 Devise Gem 现在运行良好另外我还发现了如何将现有用户的密码迁移到 Rails 的提示我已将旧密码添加到相同的密码中encrypted passwordDevis
Android Marshmallow 6.0.1 蓝牙扫描未返回结果

根据 Kitkat 4 4 4 的 update appCompat 使用以下代码和权限 6 01 中的蓝牙似乎无法按预期工作没有返回任何结果并且我附近有几个可发现的设备有人对为什么有任何见解吗我在 Nexus 5 上运行
python -正则表达式匹配单词列表

我有一个 python 脚本其中大约有 100 个正则表达式行每行匹配某些单词显然该脚本每次运行时都会消耗高达 100 的 cpu 我基本上向它传递了一个句子它会返回找到的任何匹配的单词我想将它们组合成大约 4 或 5 个不同的
PHPUnit - getallheaders 不起作用

我正在测试我的代码并且标头有一些问题在我使用的每个 api 中 headers getallheaders 为了实现这一点当我使用应用程序或 chrome postman 扩展进行测试时效果很好当我启动测试时像这样 client
动态设置onclick并传入元素本身来访问innerHTML

我正在动态创建一些 div 元素然后填充它们innerHTML带有文本的属性我正在尝试设置他们onclick事件处理程序如下 myDiv onclick function alert Hello 我能做到的我想做的是能够访问新定义的值
外键约束失败

我在 php 和 mysql 方面相对较新在我的值中插入值时我面临的问题leave表我的leave包含以下列的表 1 lid INT主键 2 empname varchar 3 用户名 varchar 4 点头 INT 5 sdate
使用设备构建时，Monotouch 在 LINQ 查询上崩溃

这是我得到的错误 mscorlib 在使用 aot only 运行时尝试 JIT 编译方法 System Linq OrderedEnumerable 1 GetEnumerator 从我读到的内容看来编译器在本例中不包含 GetEnum
带有 CSV 文件的 azure Terraform 参数

我正在尝试使用 CSV 文件访问 terraform 变量数据创建资源组并将资源组的名称添加到 CSV 文件中并尝试访问代码这是代码 locals Resource groupname csvdecode file path modul
如何将垂直线的表格图像分成三张图像？

我想将垂直线上的表格图像分成三个图像如下所示是否可以每列的宽度是可变的可悲的是如您所见左侧垂直线是从标题向下绘制的输入图像 input png 输出图像 output1 png 输出图像 output2 png 输出图像 ou
如何学习阿格达

我正在努力学习agda 但是我遇到了一个问题我在 agda wiki 上找到的所有教程对我来说都太复杂了并且涵盖了编程的不同方面在并行阅读了 3 个关于 agda 的教程后我能够编写简单的证明但我仍然没有足够的知识来使用它来实现
调用随机函数 Javascript，但不能调用同一函数两次

我使用一个随机选择另一个有效函数的函数但有时它会连续运行相同的函数两次甚至更频繁有办法防止这种情况吗我当前的代码 window setInterval function var arr func1 func2 func3 rand M
Node.js - 异步模块加载

是否可以异步加载 Node js 模块这是标准代码 var foo require foo js waiting for I O foo bar 但我想写这样的东西 require foo js function foo foo bar
如何以编程方式获取 Google Cloud 定价详细信息？

谁能告诉我如何以编程方式从 Google Cloud 网站获取 Google Cloud 定价详细信息例如 Google Compute Engine Google Cloud Storage Google Cloud SQL 等的定价
Android 中的多屏幕 xml

我正在开发2 2版本的android xml是根据这个版本设计的模拟器规格 2 2版内置 HVGA 内存 1024 现在我需要将此应用程序转换为4 0版本的三星galaxy s3 但屏幕非常拉伸看起来不太好如果有任何帮助请提前致谢
Cloudinary - 上传预设必须位于未签名上传的白名单中

我想将图像上传到 Cloudinary 使用 cordova 相机插件直接从 Ionic 中的相机拍摄我收到代码 1 的错误并显示消息上传预设必须位于未签名上传的白名单中如何解决这个错误请帮忙我编辑的js代码是 scope ca
打印词性以及单词的同义词

我有以下代码用于从输入文本文件中获取单词并使用 WordNet 打印该单词的同义词定义和例句它根据词性将同义词与同义词集分开即动词的同义词和形容词的同义词分别打印例如 flabbergasted 一词的同义词有 1 flabber
Junit - Spring boot：测试时@Value始终为null

有一个 Value注释的常量在运行测试时没有被初始化当构造函数中需要它时它会抛出NullPointerException 要测试的示例类 class TestClass Value test value1 private String
laravel 中的 Auth::login($user) 无法登录用户

我在用拉拉维尔 5 4 and 验证登录用户显示类型错误传递给 Illuminate Auth SessionGuard login 的参数 1 必须实现接口 Illuminate Contracts Auth Authentic
无需访问服务器或 phpMyADMIN 即可导出 SQL 表的简单方法

我需要一种方法来轻松地将 MySQL 表中的数据从远程服务器导出然后导入到我的家庭服务器我无法直接访问服务器也没有安装 phpMyAdmin 等实用程序不过我确实有能力将 PHP 脚本放在服务器上我如何获取数据我问这个问题纯粹是
什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor

我有四个 NVIDIA GTX 1080 显卡当我初始化会话时我看到以下控制台输出 Adding visible gpu devices 0 1 2 3 Device interconnect StreamExecutor with s

什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor

TL;DR

解释

什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor 的相关文章

随机推荐

热门标签