Colab TPU 调用 model.fit() 时出错：UnimplementedError

2024-05-01

我正在尝试分类cifar10 图片 https://www.tensorflow.org/datasets/catalog/cifar10与谷歌 colab TPU 合作，根据官方教程 https://www.tensorflow.org/guide/tpu.

但是我收到以下错误。

UnimplementedError：发现 6 个根错误。

不使用 TPU，我没有看到任何错误。有人可以分享一些建议吗？

下面附上我的代码。

from tensorflow.keras.models import Model
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.applications.vgg16 import VGG16
import tensorflow as tf
import numpy as np

import os
import tensorflow_datasets as tfds

# preparing TPU
resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
tf.config.experimental_connect_to_cluster(resolver)
# This is the TPU initialization code that has to be at the beginning.
tf.tpu.experimental.initialize_tpu_system(resolver)
print("All devices: ", tf.config.list_logical_devices('TPU'))

strategy = tf.distribute.TPUStrategy(resolver)

# download cifar10 data
ds_test, ds_train = tfds.load('cifar10', split=['test', 'train'], )

# Preprocess the images
def resize_with_crop(ip):
    image = ip['image']
    label = ip['label']
    image = tf.expand_dims(image,0)
    label = tf.one_hot(label,10)
    label = tf.expand_dims(label,0)
    return (image, label)


ds_train_ = ds_train.map(resize_with_crop)
ds_test_ = ds_test.map(resize_with_crop)

with strategy.scope():
    model = VGG16(input_shape = (32, 32, 3), weights=None, classes=10)

    model.compile(optimizer='adam', loss = 'categorical_crossentropy', metrics= ['accuracy'])

    history = model.fit(ds_train_,
                        batch_size = 32,
                        steps_per_epoch = 64,
                        epochs = 1000,
                        validation_data = ds_test_,
                        shuffle = True,)

我得到的错误如下。

---------------------------------------------------------------------------
UnimplementedError                        Traceback (most recent call last)
<ipython-input-2-588bff080f0b> in <module>()
     25                         epochs = 1000,
     26                         validation_data = ds_test_,
---> 27                         shuffle = True,)
     28 
     29 '''

13 frames
/usr/local/lib/python3.7/dist-packages/keras/engine/training.py in fit(self, x, y, batch_size, epochs, verbose, callbacks, validation_split, validation_data, shuffle, class_weight, sample_weight, initial_epoch, steps_per_epoch, validation_steps, validation_batch_size, validation_freq, max_queue_size, workers, use_multiprocessing)
   1187               logs = tmp_logs  # No error, now safe to assign to logs.
   1188               end_step = step + data_handler.step_increment
-> 1189               callbacks.on_train_batch_end(end_step, logs)
   1190               if self.stop_training:
   1191                 break

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in on_train_batch_end(self, batch, logs)
    433     """
    434     if self._should_call_train_batch_hooks:
--> 435       self._call_batch_hook(ModeKeys.TRAIN, 'end', batch, logs=logs)
    436 
    437   def on_test_batch_begin(self, batch, logs=None):

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in _call_batch_hook(self, mode, hook, batch, logs)
    293       self._call_batch_begin_hook(mode, batch, logs)
    294     elif hook == 'end':
--> 295       self._call_batch_end_hook(mode, batch, logs)
    296     else:
    297       raise ValueError('Unrecognized hook: {}'.format(hook))

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in _call_batch_end_hook(self, mode, batch, logs)
    313       self._batch_times.append(batch_time)
    314 
--> 315     self._call_batch_hook_helper(hook_name, batch, logs)
    316 
    317     if len(self._batch_times) >= self._num_batches_for_timing_check:

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in _call_batch_hook_helper(self, hook_name, batch, logs)
    351     for callback in self.callbacks:
    352       hook = getattr(callback, hook_name)
--> 353       hook(batch, logs)
    354 
    355     if self._check_timing:

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in on_train_batch_end(self, batch, logs)
   1026 
   1027   def on_train_batch_end(self, batch, logs=None):
-> 1028     self._batch_update_progbar(batch, logs)
   1029 
   1030   def on_test_batch_end(self, batch, logs=None):

/usr/local/lib/python3.7/dist-packages/keras/callbacks.py in _batch_update_progbar(self, batch, logs)
   1098     if self.verbose == 1:
   1099       # Only block async when verbose = 1.
-> 1100       logs = tf_utils.sync_to_numpy_or_python_type(logs)
   1101       self.progbar.update(self.seen, list(logs.items()), finalize=False)
   1102 

/usr/local/lib/python3.7/dist-packages/keras/utils/tf_utils.py in sync_to_numpy_or_python_type(tensors)
    514     return t  # Don't turn ragged or sparse tensors to NumPy.
    515 
--> 516   return tf.nest.map_structure(_to_single_numpy_or_python_type, tensors)
    517 
    518 

/usr/local/lib/python3.7/dist-packages/tensorflow/python/util/nest.py in map_structure(func, *structure, **kwargs)
    867 
    868   return pack_sequence_as(
--> 869       structure[0], [func(*x) for x in entries],
    870       expand_composites=expand_composites)
    871 

/usr/local/lib/python3.7/dist-packages/tensorflow/python/util/nest.py in <listcomp>(.0)
    867 
    868   return pack_sequence_as(
--> 869       structure[0], [func(*x) for x in entries],
    870       expand_composites=expand_composites)
    871 

/usr/local/lib/python3.7/dist-packages/keras/utils/tf_utils.py in _to_single_numpy_or_python_type(t)
    510   def _to_single_numpy_or_python_type(t):
    511     if isinstance(t, tf.Tensor):
--> 512       x = t.numpy()
    513       return x.item() if np.ndim(x) == 0 else x
    514     return t  # Don't turn ragged or sparse tensors to NumPy.

/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/ops.py in numpy(self)
   1092     """
   1093     # TODO(slebedev): Consider avoiding a copy for non-CPU or remote tensors.
-> 1094     maybe_arr = self._numpy()  # pylint: disable=protected-access
   1095     return maybe_arr.copy() if isinstance(maybe_arr, np.ndarray) else maybe_arr
   1096 

/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/ops.py in _numpy(self)
   1060       return self._numpy_internal()
   1061     except core._NotOkStatusException as e:  # pylint: disable=protected-access
-> 1062       six.raise_from(core._status_to_exception(e.code, e.message), None)  # pylint: disable=protected-access
   1063 
   1064   @property

/usr/local/lib/python3.7/dist-packages/six.py in raise_from(value, from_value)

UnimplementedError: 6 root error(s) found.
  (0) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_2]]
  (1) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_6]]
  (2) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_3]]
     [[cluster_train_function/_execute_6_0/_187]]
  (3) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_3]]
     [[tpu_compile_succeeded_assert/_17093395999373799140/_5/_159]]
  (4) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_3]]
     [[tpu_compile_succeeded_assert/_17093395999373799140/_5/_111]]
  (5) Unimplemented: {{function_node __inference_train_function_127397}} File system scheme '[local]' not implemented (file: '/root/tensorflow_datasets/cifar10/3.0.2/cifar10-train.tfrecord-00000-of-00001')
     [[{{node MultiDeviceIteratorGetNextFromShard}}]]
     [[RemoteCall]]
     [[IteratorGetNext_3]]
0 successful operations.
3 derived errors ignored.

如果你查看错误，它会说File system scheme '[local]' not implemented.

tfds 通常不会托管所有数据集，而是从原始源下载一些数据集到本地计算机，而 TPU 无法访问这些数据集。

云 TPU 只能访问 GCS 中的数据，因为仅注册了 GCS 文件系统。请参见：https://cloud.google.com/tpu/docs/troubleshooting#cannot_use_local_filesystem https://cloud.google.com/tpu/docs/troubleshooting#cannot_use_local_filesystem更多细节。

您可以让tfds将数据下载到您的gs存储桶中（详细信息为here https://www.tensorflow.org/datasets/gcs):

# Authenticate your account to access GCS.
from google.colab import auth
auth.authenticate_user()

...

# download cifar10 data to a gs bucket.
ds_test, ds_train = tfds.load('cifar10', split=['test', 'train'], try_gcs=True, data_dir="gs://YOUR_BUCKET_NAME")

注意最近推出的TPU VMs https://cloud.google.com/blog/products/compute/introducing-cloud-tpu-vms可以访问本地文件。您可以在 GCP 中创建 TPU 虚拟机，但在 Colab/Kaggle 中尚不能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Colab TPU 调用 model.fit() 时出错：UnimplementedError 的相关文章

Python - Pandas - 将特定函数应用于给定级别 - 多索引数据帧

我有一个多索引 DataFrame 并且我希望仅对分配给我的级别之一的向量应用一些计算使用下面的代码 import pandas as pd import datetime ticker date US datetime date tod
将 Django Model 对象转换为 dict，所有字段都完好无损

如何将 django Model 对象转换为 dictall它的领域理想情况下所有内容都包含外键和 editable False 的字段让我详细说明一下假设我有一个如下所示的 django 模型 from django db imp
有没有纯Python的表类？

我正在构建一个需要分析表格数据的应用程序我想执行一些列操作例如重命名列删除列以及根据现有列的值计算新列的能力我的第一选择是 Pandas 之类的东西但是一个限制是这个项目必须是跨平台的并且非常容易在 virtualenv 中部署
使用组合时如何解决循环依赖？

我遇到了如下所示的情况其中每个类都需要另一个类并且它创建了循环依赖关系我在使用 ctypes 包装一些 C 代码时遇到了这种情况已经有很多关于这个主题的帖子但我发现它们没有帮助我需要一些例子 Module A from B im
AttributeError：模块“tensorflow.python.summary.summary”没有属性“FileWriter”

我收到此错误尽管我到处都看过file writer tf summary FileWriter path to logs sess graph 被提到为正确的实施this https github com tensorflow tenso
回归模型 statsmodel python

这更多是一个统计问题因为代码运行良好但我正在学习 python 中的回归建模我在下面使用 statsmodel 编写了一些代码来创建一个简单的线性回归模型 import statsmodels api as sm import num
Flask-admin 内联建模传递表单参数会抛出 AttributeError

Flask 开发者们大家好在 Flask admin 中我目前尝试在模型视图中实现内联模型编辑在模型方面我有一个简单的树结构表示一组内容页面每个节点都有多个子节点以及与其关联的多个内容数据模型模型被命名为ContentNode
Jupyter Notebook 找不到 IQSharp

我一直在尝试为 Quantum Katas 运行 Q 但在找到 Q 内核方面遇到了一些困难唯一显示的内核是用于 Jupyter Notebook 的 Python 3 内核奇怪的是当我执行 jupyter kernalspec lis
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
如何使用httplib2进行相互证书认证

我正在使用 httplib2 从我的服务器向另一个 Web 服务发出请求我们想要使用相互证书身份验证我了解如何使用证书进行传出连接 h set certificate 但是如何检查应答服务器使用的证书这张票 http code goo
CTRL-C 在 Python 中的行为有所不同

I ve recently started learning Python long time Java programmer here and currently in the process of writing some simple
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
如何处理 ValueError：索引包含使用 df.pivot 或 pd.pivot_table 的重复条目？

我有一张显示累计小时数的表格 dataframe values 不同的专家 ID 已完成一系列四项任务 Task1 Tas2 Task3 Tas4 像这样 Input ID Task1 Task2 Task3 Task4 0 10 1 3
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
Python Sqlite3 获取 Sqlite 连接路径

给定一个 sqlite3 连接对象如何检索 sqlite3 文件的文件路径 The Python 连接对象 http github com python cpython blob master Modules sqlite connect
Chrome 已关闭，并出现错误 ERROR:network_change_notifier_win.cc(141)] WSALookupServiceBegin 失败，原因为：0

我的笔记本电脑操作系统是 windows 10 我使用 selenium webdriver 和 Python 当我通过脚本打开chrome浏览器时加载网页后chrome就关闭了下面是我的python代码和错误 from seleniu
在 Python 中，如果我有 unix 时间戳，如何将其插入 MySQL 日期时间字段？

我正在使用 Python MySQLDB 我想将其插入 Mysql 中的 DATETIME 字段我该如何使用cursor execute 来做到这一点要将 UNIX 时间戳转换为 Python 日期时间对象请使用datetime fr
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

在 Makefile 的先决条件列表中使用目标的目录路径

我编写了一个脚本它接收两个以 cfg 结尾的文件并输出一个以 cmp 结尾的文件我想将其包含在我的 Makefile 中因为一些源代码文件依赖于此 cmp 文件在我的 Makefile 中我想这样做 cmp cfg dir def
Spring休眠异常

当我启动 SpringMVC 时出现以下异常 Apr 28 2012 6 08 23 PM org apache catalina core AprLifecycleListener init INFO The APR based Apa
如何让 Docker 容器访问主机上的 dnsmasq 本地 DNS 解析器？

Docker 容器可能会通过多种方式对 DNS 设置感到困惑只需在 SO 或更广泛的互联网上搜索 Docker DNS 即可了解我的意思建议的常见解决方法之一是将 dnsmasq 设置为主机系统上的本地 DNS 解析器将其绑定到do
使用 Google Collections 创建弱多重地图

是否有与 MultiMaps 的 MapMaker 相当的工具目前我像这样创建缓存 public static Map
带有checked和after标签的css表单复选框样式[重复]

这个问题在这里已经有答案了我正在尝试在不使用 JavaScript 或 JQuery 的情况下设计一个表单它包括一系列复选框这个想法是如果未选中复选框则在复选框后显示某个 gif 否则后面不显示任何内容这是我的代码 input
设计 XML 模式的最佳实践是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案作为一名业余软件开发人员我仍在学术界我编写了一些 XML 文档模式我经常遇到导致 XML 文档难看的设计错误因为我不完全确定
pandas_datareader 无法在 jupyter-notebook (Anaconda) 中工作

ModuleNotFoundError Traceback 最近一次调用最后一次在 3 从matplotlib导入样式 4 将 pandas 导入为 pd gt 5 将 pandas datareader data 导入为 web 6 7
匹配 MySQL 中单词/后缀的相似/变体

我如何匹配 MySQL 中单词的变体例如搜索 accountancy 应匹配 accountant accountants accounting 等我使用共享主机因此无法向 MySQL 添加任何功能例如 levenshtein 我想
如何在 Android 上的 SharedPreferences 中保存/存储对象？

我需要在很多地方获取用户对象其中包含很多字段登录后我想保存存储这些用户对象我们如何实现这样的场景呢我无法像这样存储它 SharedPreferences Editor prefsEditor myPrefs edit prefs
如何安装和使用 YAML-Cpp

我想学习 YAML 并将其与 C 一起使用但我一直在尝试设置YAML Cpp 让我解释一下到目前为止我所做的事情我下载了源代码版本0 5 1 安装的 Cmake 适用于 Windows 安装了 Boost 库为 Visual Stu
使用 Airflow BigqueryOperator 向 BigQuery 表添加标签

我必须向 bigquery 表添加标签我知道可以通过 BigQuery UI 来完成此操作但如何通过气流运算符来完成此操作 Use case 用于计费和搜索目的由于多个团队在同一项目和数据集下工作我们需要将各个团队创建的所有表组合在
Python 3 中的“raw_input()”和“input()”有什么区别？ [复制]

这个问题在这里已经有答案了有什么区别raw input and input 在 Python 3 中不同之处在于raw input Python 3 x 中不存在而input 做其实老raw input 已更名为input 和旧的
Django：如何从单独的多个服务器提供用户提交的图像和缩略图？

对于我的 Django 网站我想接受用户提交的图片从这些图像生成缩略图将原始图像和缩略图放在单独的多个专用于提供图像的服务器上我需要多个独立的服务器来提供图像缩略图以确保我有足够的 IO 性能构建这样的分布式图像服务系统的最
如何为Data-First自动创建的实体添加数据注释？

如果模型优先我们使用 MetadataType typeof ConceptMetadataSource 附加一个包含所有数据注释的 MetadataSource 文件例如 HiddenInput DisplayValue false
如果这段代码不是玩笑，那么它到底是如何工作的呢？

class Tree def initialize d d d end def to s l r gt d end def total d is a Numeric d 0 email protected cdn cgi l email p
如何删除 Laravel 5 中的帖子资源？

Laravel 5 版本我正在开发一个新的 laravel 5 版本的项目由于某种原因我无法删除帖子当我按删除时它只会将我重定向到帖子显示页面其 id 例如 post 3 我得到一个空白的白色页面当我返回索引视图时我会看到所
C# 和 .Net 垃圾收集器性能

我正在尝试用 C 和 NET 制作游戏并且计划实现更新游戏世界中游戏对象的消息这些消息将是 C 引用对象我想要这种方法因为如果我希望游戏是多人游戏那么通过网络发送它们会更容易但是如果我有很多消息对于垃圾收集器来说不是压力很大吗
如何选择非“唯一”行

我有下表我必须从中获取非唯一行 id idA infos 0 201 1899 1 205 1955 2 207 1955 3 201 1959 我想获取该列的所有行infos 具有相同的idA至少有两行的值上表的查询输出必须是 inf
ZuulProxy 在应该执行故障转移时失败，并显示“RibbonCommand 超时且没有可用的后备”

简短的介绍我试图让 ZuulProxy 来处理实例故障转移但它抛出 ZuulException 转发错误而不是使用工作实例的结果进行响应详细描述我的设置是一台独立的 Eureka Server 一台 ConfigServer 一台
Colab TPU 调用 model.fit() 时出错：UnimplementedError

我正在尝试分类cifar10 图片 https www tensorflow org datasets catalog cifar10与谷歌 colab TPU 合作根据官方教程 https www tensorflow org guid

Colab TPU 调用 model.fit() 时出错：UnimplementedError

Colab TPU 调用 model.fit() 时出错：UnimplementedError 的相关文章

随机推荐

热门标签