Tensorflow：GPU 加速仅在首次运行后发生

2024-01-03

我已经在我的机器（Ubuntu 16.04）上安装了 CUDA 和 CUDNNtensorflow-gpu.

使用的版本：CUDA 10.0、CUDNN 7.6、Python 3.6、张量流 1.14

这是输出nvidia-smi，显示显卡配置。

| NVIDIA-SMI 410.78       Driver Version: 410.78       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 960M    On   | 00000000:02:00.0 Off |                  N/A |
| N/A   44C    P8    N/A /  N/A |    675MiB /  4046MiB |      0%   E. Process |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1502      G   /usr/lib/xorg/Xorg                           363MiB |
|    0      3281      G   compiz                                        96MiB |
|    0      4375      G   ...uest-channel-token=14359313252217012722    69MiB |
|    0      5157      C   ...felipe/proj/venv/bin/python3.6            141MiB |
+-----------------------------------------------------------------------------+

这是输出device_lib.list_local_devices()（张量流辅助方法显示它可以看到哪些设备），显示我的 GPU 对张量流可见：

[name: "/device:CPU:0"
  device_type: "CPU"
  memory_limit: 268435456
  locality {
  }
  incarnation: 5096693727819965430, 
name: "/device:XLA_GPU:0"
  device_type: "XLA_GPU"
  memory_limit: 17179869184
  locality {
  }
  incarnation: 13415556283266501672
  physical_device_desc: "device: XLA_GPU device", 
name: "/device:XLA_CPU:0"
  device_type: "XLA_CPU"
  memory_limit: 17179869184
  locality {
  }
  incarnation: 14339781620792127180
  physical_device_desc: "device: XLA_CPU device", 
name: "/device:GPU:0"
  device_type: "GPU"
  memory_limit: 3464953856
  locality {
    bus_id: 1
    links {
    }
  }
  incarnation: 13743207545082600644
  physical_device_desc: "device: 0, name: GeForce GTX 960M, pci bus id: 0000:02:00.0, compute capability: 5.0"
]

现在我们来实际使用 GPU 进行计算。我用了一小段代码运行一些虚拟矩阵乘法在 CPU 和 GPU 上比较性能：

shapes = [(50, 50), (100, 100), (500, 500), (1000, 1000), (10000,10000), (15000,15000)]

devices = ['/device:CPU:0', '/device:XLA_GPU:0']

for device in devices:
    for shape in shapes:
        with tf.device(device):
            random_matrix = tf.random_uniform(shape=shape, minval=0, maxval=1)
            dot_operation = tf.matmul(random_matrix, tf.transpose(random_matrix))
            sum_operation = tf.reduce_sum(dot_operation)

        # Time the actual runtime of the operations
        start_time = datetime.now()
        with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as session:
            result = session.run(sum_operation)
        elapsed_time = datetime.now() - start_time

        # PRINT ELAPSED TIME, SHAPE AND DEVICE USED

这里有惊喜。我第一次运行包含此代码块的单元格（我在 jupyter 笔记本上），GPU 的计算时间比 CPU 长得多:

# output of first run: CPU is faster
----------------------------------------
Input shape: (50, 50) using Device: /device:CPU:0 took: 0.01
Input shape: (100, 100) using Device: /device:CPU:0 took: 0.01
Input shape: (500, 500) using Device: /device:CPU:0 took: 0.01
Input shape: (1000, 1000) using Device: /device:CPU:0 took: 0.02
Input shape: (10000, 10000) using Device: /device:CPU:0 took: 6.22
Input shape: (15000, 15000) using Device: /device:CPU:0 took: 21.23
----------------------------------------
Input shape: (50, 50) using Device: /device:XLA_GPU:0 took: 2.82
Input shape: (100, 100) using Device: /device:XLA_GPU:0 took: 0.17
Input shape: (500, 500) using Device: /device:XLA_GPU:0 took: 0.18
Input shape: (1000, 1000) using Device: /device:XLA_GPU:0 took: 0.20
Input shape: (10000, 10000) using Device: /device:XLA_GPU:0 took: 28.36
Input shape: (15000, 15000) using Device: /device:XLA_GPU:0 took: 93.73
----------------------------------------

惊喜#2：当我重新运行包含虚拟矩阵乘法代码的单元时，GPU 版本要快得多（如预期）：

# output of reruns: GPU is faster
----------------------------------------
Input shape: (50, 50) using Device: /device:CPU:0 took: 0.02
Input shape: (100, 100) using Device: /device:CPU:0 took: 0.02
Input shape: (500, 500) using Device: /device:CPU:0 took: 0.02
Input shape: (1000, 1000) using Device: /device:CPU:0 took: 0.04
Input shape: (10000, 10000) using Device: /device:CPU:0 took: 6.78
Input shape: (15000, 15000) using Device: /device:CPU:0 took: 24.65
----------------------------------------
Input shape: (50, 50) using Device: /device:XLA_GPU:0 took: 0.14
Input shape: (100, 100) using Device: /device:XLA_GPU:0 took: 0.12
Input shape: (500, 500) using Device: /device:XLA_GPU:0 took: 0.13
Input shape: (1000, 1000) using Device: /device:XLA_GPU:0 took: 0.14
Input shape: (10000, 10000) using Device: /device:XLA_GPU:0 took: 1.64
Input shape: (15000, 15000) using Device: /device:XLA_GPU:0 took: 5.29
----------------------------------------

所以我的问题是：为什么我运行一次代码后才真正发生GPU加速？

我可以看到 GPU 设置正确（否则根本不会发生加速）。是由于某种初始开销造成的吗？ GPU 需要吗warm-up在我们实际使用它们之前？

P.S.:在两次运行中（即 GPU 速度较慢的一次运行，以及 GPU 速度较快的一次运行），我可以看到 GPU 使用率为 100%，因此肯定正在使用它。

P.S.:仅在第一次运行时，GPU 似乎没有启动已接。如果我运行两次、三次或多次，则第一次运行后的所有运行都会成功（即 GPU 计算速度更快）。

罗伯特·克罗维拉的评论 https://stackoverflow.com/questions/56999493/tensorflow-gpu-acceleration-only-happens-after-first-run/57023579#comment100532663_56999493让我研究了 XLA 的事情，这帮助我找到了解决方案。

事实证明，GPU 通过两种方式映射到 Tensorflow 设备：作为 XLA 设备和作为普通 GPU。

这就是为什么有两种设备，一种名为"/device:XLA_GPU:0"和另一个"/device:GPU:0".

我需要做的就是是为了激活"/device:GPU:0"反而。现在 GPU 立即被 Tensorflow 接管。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

GPU

NVIDIA

Tensorflow：GPU 加速仅在首次运行后发生的相关文章

通过 boto3 承担 IAM 用户角色时访问被拒绝

Issue 我有一个 IAM 用户和一个 IAM 角色我正在尝试将 IAM 用户配置为有权使用 STS 承担 IAM 角色我不确定为什么收到访问被拒绝错误 Details IAM 角色 arn aws iam 123456789 r
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

是否有可能获得大整数实例的自然对数？

我在用大整数 https www npmjs com package big integer对于 JavaScript var bigInt require big integer 我有一个 bigInt 实例 var ratherLarg
在哪里创建包环境变量？

我正在进行数据分析并创建了一个包来存储我的小插图和数据如所解释的here https rmflight github io posts 2014 07 vignetteAnalysis html 我想设置一些可用于我的所有包函数的变量这
在向量中存储两个间隔的字符串

最近我遇到一个问题但在此之前我会告诉你参考是什么考虑这个程序 include
如何使用Java和MySQL在一条语句中插入两个不同的表？

我正在使用 Java Spring NamedParameterJdbcTemplate 和 MySQL 我的声明如下 INSERT INTO Table1 Name VALUES INSERT INTO Table2 Path Table
当 --sysroot 指向另一个目录时，如何让 FFmpeg 找到已安装的库？

我已经研究这个问题好几天了我正在尝试使用 libmp3lame 构建 FFmpeg 以在 Android 应用程序中使用构建脚本设置了 sysroot标志指向以 Android 可以使用它们的方式构建这些库所需的 Android ND
在 Qt 5 中连接过载信号和槽

我在掌握 Qt 5 中新的信号槽语法使用指向成员函数的指针时遇到困难如中所述新信号槽语法 https wiki qt io New Signal Slot Syntax 我尝试改变这个 QObject connect spinBox
从API接收数据后R httr content(req)到数据帧

我正在尝试通过美国人口普查地理编码器对一组地址进行批量地理编码 http geocoding geo census gov geocoder http geocoding geo census gov geocoder 我发现了这个问题在
如何激活由另一个进程启动的窗口

我想这可能是不可能的请证明我错了以下设置我的带有 GUI 的 NET C 应用程序我们称其为gui 打开另一个应用程序我们称之为server 通过创建一个new Process The server 由其他人开发以一个参数启动以
querydsl 3.3.0 - 在具有 N 个布尔参数的查询中使用 collection.any() 和 elementcollections 生成 N 个“存在”子查询

我正在尝试查询 ElementCollection 中匹配 2 个条件的特定项目当我在QueryDSL中编写查询时 Hibernate生成的查询包括2个带有子查询的存在语句每个子查询包含1个我指定的条件这是一个例子 Entity pu
Integer 对象的同步块

我刚刚遇到了 Java 中的同步块并编写了一个小程序来测试它是如何工作的我创建了 10 个线程并让每个线程递增 Integer 对象 1000 次因此对于同步我假设所有线程完成工作后的结果为 10000 而没有同步的结果则小于
Laravel 5.1 的安全性如何？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在阅读了 SQL 注入之后我想知道在 Laravel 中创建应用程序的安全性如何以及如何测试您的安全性是否满足当今的标准我开发了
关闭并处置 - 调用哪个？

阅读主题后SqlCommand Dispose 足够了吗 https stackoverflow com questions 60919 is sqlcommanddispose enough and 关闭和处置 WCF 服务 https
我可以在 ASP.net MVC RC2 中的另一个表单标签中使用一个表单标签吗

我目前正在 MVC2 中开发应用程序我想在我的应用程序中使用多个表单标签在我看来我创建了一个具有删除选项的表我正在通过发布个人删除来执行此操作因此我为每个按钮创建了表单标记我还希望用户提供删除多个记录的选项因此我为他们提供
通过 C# 调用调用带有可选参数的 Visual Basic 函数

我正在使用客户端与不同层上的 Visual Basic 代码进行交互C http en wikipedia org wiki C Sharp 28programming language 29程序 Visual Basic 函数签名如下所示
使用 CSS 自动添加“必填字段”星号以形成输入

有什么好方法可以克服此代码无法按预期工作的不幸事实 div class required div
JTable动态改变行高[重复]

这个问题在这里已经有答案了我在动态更改行的高度时遇到问题是否有需要重载的方法 Edit 抱歉这是我的第一篇短文我的问题实际上与根据内容更改行高有关所以到目前为止我所做的是创建一个实现 TabelCellRenderer 的内部类
service 命令的 --limit-xxx 选项是否限制每个服务或每个容器的资源？

service createdocker 1 12的命令有两个限制cpu和内存的选项如下 limit cpu value Limit CPUs default 0 000 limit memory value Limit Memory d
Lift 框架是否像 Ruby on Rails 或 Django 一样“简单”？

只是想知道有没有人有这三者的经验我已经阅读了一些 RoR 并使用了 Django 它们看起来相当容易使用电梯像这两个一样容易吗我知道简单是主观的这里没有上下文我的意思是在非常高的水平和一般意义上我目前正在做 lift 的一系
在 dart 中将整数位模式解析为 IEEE 754 浮点数

我通过接口蓝牙列表获取 4 个字节的数据数据代表 IEEE 754 浮点数例如0x3fd0a3d7 大约代表1 63作为二进制32float dart lang 有没有办法将其转换类型双关为 float 然后 double 就像
Tensorflow：GPU 加速仅在首次运行后发生

我已经在我的机器 Ubuntu 16 04 上安装了 CUDA 和 CUDNNtensorflow gpu 使用的版本 CUDA 10 0 CUDNN 7 6 Python 3 6 张量流 1 14 这是输出nvidia smi 显示显卡配

Tensorflow：GPU 加速仅在首次运行后发生

Tensorflow：GPU 加速仅在首次运行后发生 的相关文章

随机推荐

热门标签

Tensorflow：GPU 加速仅在首次运行后发生的相关文章