Google Colab：为什么 CPU 比 TPU 快？

2024-05-01

我正在使用 Google colabTPU训练一个简单的Keras模型。删除分布式strategy并在CPU比TPU。这怎么可能？

import timeit
import os
import tensorflow as tf
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Load Iris dataset
x = load_iris().data
y = load_iris().target

# Split data to train and validation set
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.30, shuffle=False)

# Convert train data type to use TPU 
x_train = x_train.astype('float32')
x_val = x_val.astype('float32')

# Specify a distributed strategy to use TPU
resolver = tf.contrib.cluster_resolver.TPUClusterResolver(tpu='grpc://' + os.environ['COLAB_TPU_ADDR'])
tf.contrib.distribute.initialize_tpu_system(resolver)
strategy = tf.contrib.distribute.TPUStrategy(resolver)

# Use the strategy to create and compile a Keras model
with strategy.scope():
  model = Sequential()
  model.add(Dense(32, input_shape=(4,), activation=tf.nn.relu, name="relu"))
  model.add(Dense(3, activation=tf.nn.softmax, name="softmax"))
  model.compile(optimizer=Adam(learning_rate=0.1), loss='logcosh')

start = timeit.default_timer()

# Fit the Keras model on the dataset
model.fit(x_train, y_train, batch_size=20, epochs=20, validation_data=[x_val, y_val], verbose=0, steps_per_epoch=2)

print('\nTime: ', timeit.default_timer() - start)

谢谢你的问题。

我认为这里发生的事情是一个开销问题——因为 TPU 运行在一个单独的虚拟机上（可通过grpc://$COLAB_TPU_ADDR），每次调用在 TPU 上运行模型都会产生一定量的开销，因为客户端（本例中为 Colab 笔记本）将图形发送到 TPU，然后编译并运行。与运行所需的时间相比，此开销很小。 ResNet50 适用于一个时期，但与运行示例中的简单模型相比要大一些。

为了在 TPU 上获得最佳效果，我们建议使用tf.data.数据集 https://www.tensorflow.org/api_docs/python/tf/data/Dataset。我更新了您的 TensorFlow 2.2 示例：

%tensorflow_version 2.x
import timeit
import os
import tensorflow as tf
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Load Iris dataset
x = load_iris().data
y = load_iris().target

# Split data to train and validation set
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.30, shuffle=False)

# Convert train data type to use TPU 
x_train = x_train.astype('float32')
x_val = x_val.astype('float32')

resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='grpc://' + os.environ['COLAB_TPU_ADDR'])
tf.config.experimental_connect_to_cluster(resolver)
tf.tpu.experimental.initialize_tpu_system(resolver)
strategy = tf.distribute.experimental.TPUStrategy(resolver)

train_dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(20)
val_dataset = tf.data.Dataset.from_tensor_slices((x_val, y_val)).batch(20)

# Use the strategy to create and compile a Keras model
with strategy.scope():
  model = Sequential()
  model.add(Dense(32, input_shape=(4,), activation=tf.nn.relu, name="relu"))
  model.add(Dense(3, activation=tf.nn.softmax, name="softmax"))
  model.compile(optimizer=Adam(learning_rate=0.1), loss='logcosh')

start = timeit.default_timer()

# Fit the Keras model on the dataset
model.fit(train_dataset, epochs=20, validation_data=val_dataset)

print('\nTime: ', timeit.default_timer() - start)

运行大约需要 30 秒，而在 CPU 上运行大约需要 1.3 秒。通过重复数据集并运行一个长周期而不是几个小周期，我们可以大大减少这里的开销。我用这个替换了数据集设置：

train_dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)).repeat(20).batch(20)
val_dataset = tf.data.Dataset.from_tensor_slices((x_val, y_val)).batch(20)

并更换了fit用这个调用：

model.fit(train_dataset, validation_data=val_dataset)

这使我的运行时间减少到大约 6 秒。这仍然比 CPU 慢，但是对于这样一个可以轻松在本地运行的小型模型来说，这并不奇怪。一般来说，您会发现在较大模型中使用 TPU 会带来更多好处。我建议仔细看一下TensorFlow 的官方 TPU 指南 https://www.tensorflow.org/guide/tpu，它为 MNIST 数据集提供了一个更大的图像分类模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google Colab：为什么 CPU 比 TPU 快？的相关文章

如何将one-hot向量转换为多标签？

我有一项多分类任务并且我得到了像这样的单热类型预测 0 1 1 0 1 0 1 0 1 我希望将这个单热向量转换为标签例如 1 2 1 0 2 我已经尝试过 tf argmax 但它不起作用那么我该如何处理呢使用列表理解 oheLi
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
张量流急切模块错误

我的操作系统是 Ubuntu 16 04 Python版本是3 5 张量流版本是14 0 当我尝试为 TF Eager 模块编写简单代码时 import tensorflow as tf import tensorflow contrib
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
TensorFlow：在输入处获取梯度时性能缓慢

我正在使用 TensorFlow 构建一个简单的多层感知器并且我还需要获取神经网络输入损失的梯度或误差信号这是我的代码它有效 cost tf reduce mean tf nn softmax cross entropy with
在不丢失基数信息的情况下对 TensorFlow 数据集进行窗口处理？

tf data Dataset window返回一个新的数据集其元素是数据集这些嵌套数据集的元素是所需大小的窗口如果您有一个数据集例如 Dataset range 10 并想要一个像这样的窗口数据集 0 1 2 1 2 3 7 8
如何在Google机器学习中将jpeg图像转换为json文件

我正在研究 Google Cloud ML 我想对 jpeg 图像进行预测为此我想使用 gcloud beta ml 预测 instances INSTANCES model MODEL version VERSION https cl
错误 - AttributeError：“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

我是 Python 3 5 的新手我正在尝试编写一个简单的自动编码器它将在 60 张苹果图像的数据集上进行训练并尝试重建根中给出的图像我使用了以下代码 from keras layers import Input Dense fro
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
Caffe 的 LSTM 模块

有谁知道 Caffe 是否有一个不错的 LSTM 模块我从 russel91 的 github 帐户中找到了一个但显然包含示例和解释的网页消失了以前是http apollo deepmatter io http apollo deep
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
如何在 keras 中添加可训练的 hadamard 产品层？

我试图在训练样本中引入稀疏性我的数据矩阵的大小为比如说 NxP 我想将其传递到一个层 keras 层该层的权重大小与输入大小相同即可训练权重矩阵W的形状为NxP 我想对这一层的输入矩阵进行哈达玛乘积逐元素乘法 W 按元素与输入相乘

随机推荐

高级自定义字段 – 具有多个输入的自定义字段类型

我正在尝试为 ACF 创建一个新的字段类型其中包含多个输入或存储值数组原因是我希望为一组输入字段提供一些交互性和自定义布局我按照这个教程http www advancedcustomfields com resources tutor
在 jQuery 中从 asp.net runat 服务器获取 ID

我正在尝试使用 ASP NET 在 jQuery 中制作一些东西但身份证来自runat server 与 HTML 中使用的 id 不同我曾经用它来从这种情况中获取ID val 但在这种情况下它不起作用我不知道为什么 JavaScr
Neo4j 2.0 唯一约束错误“节点已存在”，当它不存在时

我在 Neo4j 唯一约束方面遇到了一些麻烦其中 CREATE cypher 语句由于节点已经存在而无法执行问题是它不存在此外昨天使用这些确切数据的精确流程也有效我的neo4j版本是ubuntu 12 04 3上的commun
Javascript 'this' 覆盖 Z 组合器和所有其他递归函数

背景我有一个由a实现的递归函数Z 组合器如图所示here https stackoverflow com questions 17645356 anonymous recursion any way to replace javascri
WScript.Shell.Exec - 从 stdout 读取输出

我的 VBScript 不显示我执行的任何命令的结果我知道命令被执行但我想捕获结果我已经测试了多种方法来执行此操作例如以下方法 Const WshFinished 1 Const WshFailed 2 strCommand pin
测试抽象模型 - django 2.2.4 / sqlite3 2.6.0

我正在尝试使用 django 2 2 4 sqlite3 2 6 0 python 3 6 8 测试一些简单的抽象混合目前我在使用架构编辑器从测试数据库中删除模型时遇到问题我有以下测试用例 from django test impor
Web 服务版本控制策略的优缺点

更新20100224 我真的不需要某些供应商网站上的一些蹩脚定义我正在寻找的是实际实施以及实际实施这些东西的人们在日常 IT 业务周期中面临的挑战更多内容如下尚未制定采用任何退休策略显然需要制定一项策略我对您如何制定该战略并将其
矩形相当于文本的文本锚点表示属性吗？

是否有一个与文本的文本锚点表示属性等效的矩形我希望能够从左侧右侧或根据情况定位矩形我知道这可以通过一些简单的计算来完成但我只是想知道是否已经存在内置的东西文本锚点演示属性上的链接 https developer mozilla o
Shutil.rmtree() 引发异常 WindowsError：访问被拒绝：

尝试使用 python 脚本自动删除文件我得到 Traceback most recent call last Python script 5 line 8 in
减少 CSS 网格中的行间距

我想知道如何减少行间距我尝试过将边距和填充设置为 0 但似乎没有什么效果左侧为桌面视图右侧为移动视图 content margin 0 padding 0 width 100 display grid grid gap 5px gri
优化spark sql中分区数据写入S3

我在每个 Spark 作业运行中从 HDFS 读取大约 700 GB 的数据我的工作读取这些数据过滤大约 60 的数据将其分区如下 val toBePublishedSignals hiveCtx sql some query toB
使用 PLINQ 扩展时是否会传输线程标识？

我正在使用 AsParallel ForAll 在 ASP NET 请求上下文中并行枚举集合枚举方法依赖于System Threading Thread CurrentPrincipal 我是否可以依赖用于将 System Threadi
使用 crypto.getRandomValues() 生成 0 到 1 的随机数

看起来 Math random 会生成 0 1 范围内的 64 位浮点数而新的 crypto getRandomValues API 仅返回整数使用此 API 生成 0 1 中的数字的理想方法是什么这似乎有效但似乎不太理想 ints
如何避免获取 .repo/manifest.xml？

如何避免获取 repo manifest xml 故意修改的我不想在回购同步期间对其进行修改我已经做了一个repo init 这一步就完成了我对manifest xml做了一个小修改删除了一些同步不需要的项目当我们进行存储库同步时
模数在 Javascript 中不起作用

我试图理解为什么模运算不能按预期工作我需要验证 IBAN 该算法包括进行取模根据维基百科在此输入链接描述 https en wikipedia org wiki International Bank Account Number Va
Hibernate加载惰性代理，但我只需要PK

我有这些实体 Entity public class Room ManyToOne optional true fetch FetchType LAZY private Player player1 Entity public class
如何使用openJDK11运行Eclipse？

怎样必须eclipse ini看起来像是让 Eclipse Photon 2018 09 或 2018 12 在 openJDK11 上运行我已经安装了 openJDK 11 0 1 和 Eclipse 2018 09 我有一个包含 XM
Java Swing并发显示JTextArea

我需要执行显示从 Arraylist 到 JTextArea 的一系列事件但是每个事件的执行时间不同以下是我的目标的一个简单示例 public void start ActionEvent e SwingUtilities invo
读/写结构到文件 - c

我正在用 C 语言创建一个学生数据库我需要做的最后一件事是能够读取我创建的数据库并将其写入文件所以我已经有了一个充满指向学生结构的指针的数组我需要将其写入文件一旦我写完它我也需要能够将它读回到我的数组中我真的不知道该怎么做这是
Google Colab：为什么 CPU 比 TPU 快？

我正在使用 Google colabTPU训练一个简单的Keras模型删除分布式strategy并在CPU比TPU 这怎么可能 import timeit import os import tensorflow as tf from sk

Google Colab：为什么 CPU 比 TPU 快？

Google Colab：为什么 CPU 比 TPU 快？ 的相关文章

随机推荐

热门标签

Google Colab：为什么 CPU 比 TPU 快？的相关文章