All 可重现的下面的代码在 Google Colab 上使用 TF 2.2.0-rc2 运行。
改编简单的例子文档 https://www.tensorflow.org/api_docs/python/tf/data/Dataset用于从简单的 Python 列表创建数据集:
import numpy as np
import tensorflow as tf
tf.__version__
# '2.2.0-rc2'
np.version.version
# '1.18.2'
dataset1 = tf.data.Dataset.from_tensor_slices([1, 2, 3])
for element in dataset1:
print(element)
print(type(element.numpy()))
我们得到结果
tf.Tensor(1, shape=(), dtype=int32)
<class 'numpy.int32'>
tf.Tensor(2, shape=(), dtype=int32)
<class 'numpy.int32'>
tf.Tensor(3, shape=(), dtype=int32)
<class 'numpy.int32'>
所有数据类型都在int32
,正如预期的那样。
但是更改这个简单的示例以提供字符串列表而不是整数:
dataset2 = tf.data.Dataset.from_tensor_slices(['1', '2', '3'])
for element in dataset2:
print(element)
print(type(element.numpy()))
给出结果
tf.Tensor(b'1', shape=(), dtype=string)
<class 'bytes'>
tf.Tensor(b'2', shape=(), dtype=string)
<class 'bytes'>
tf.Tensor(b'3', shape=(), dtype=string)
<class 'bytes'>
令人惊讶的是,尽管张量本身是dtype=string
,他们的评价属于类型bytes
.
这种行为不仅限于.from_tensor_slices
方法;这是情况.list_files https://www.tensorflow.org/api_docs/python/tf/data/Dataset#list_files(以下代码片段在新的 Colab 笔记本中直接运行):
disc_data = tf.data.Dataset.list_files('sample_data/*.csv') # 4 csv files
for element in disc_data:
print(element)
print(type(element.numpy()))
结果是:
tf.Tensor(b'sample_data/california_housing_test.csv', shape=(), dtype=string)
<class 'bytes'>
tf.Tensor(b'sample_data/mnist_train_small.csv', shape=(), dtype=string)
<class 'bytes'>
tf.Tensor(b'sample_data/california_housing_train.csv', shape=(), dtype=string)
<class 'bytes'>
tf.Tensor(b'sample_data/mnist_test.csv', shape=(), dtype=string)
<class 'bytes'>
再次,评估张量中的文件名返回为bytes
, 代替string
,尽管张量本身是dtype=string
.
类似的行为也观察到.from_generator
方法(此处未显示)。
最后的演示:如图所示.as_numpy_iterator
method 文档 https://www.tensorflow.org/api_docs/python/tf/data/Dataset#as_numpy_iterator,以下等式条件被评估为True
:
dataset3 = tf.data.Dataset.from_tensor_slices({'a': ([1, 2], [3, 4]),
'b': [5, 6]})
list(dataset3.as_numpy_iterator()) == [{'a': (1, 3), 'b': 5},
{'a': (2, 4), 'b': 6}]
# True
但如果我们改变元素b
为了成为字符串,相等条件现在令人惊讶地评估为False
!
dataset4 = tf.data.Dataset.from_tensor_slices({'a': ([1, 2], [3, 4]),
'b': ['5', '6']}) # change elements of b to strings
list(dataset4.as_numpy_iterator()) == [{'a': (1, 3), 'b': '5'}, # here
{'a': (2, 4), 'b': '6'}] # also
# False
可能是由于数据类型不同,因为值本身显然是相同的。
我并不是通过学术实验偶然发现这种行为的。我正在尝试使用自定义函数将数据传递到 TF 数据集,该函数从表单磁盘读取文件对
f = ['filename1', 'filename2']
哪些自定义函数本身工作得很好,但通过 TF 数据集映射给出
RuntimeError: not a string
经过这次挖掘,如果返回的数据类型确实是,那么似乎至少不是无法解释的bytes
并不是string
.
那么,这是一个错误(看起来),还是我在这里遗漏了一些东西?