如何将 py_func 与返回 dict 的函数一起使用

2024-06-28

我正在使用编写输入管道tf.data.Dataset。我想使用 python 代码来加载和转换我的样本，代码返回张量字典。不幸的是，我不知道如何将其定义为传递给的输出类型tf.py_func.

我有一个解决方法，我的函数返回张量列表而不是字典，但它使我的代码可读性较差，因为我在该字典中有 4 个键。

代码看起来如下

file_list = ....

def load(file_name):
    return {"image": np.zeros(...,dtype=np.float32),
           "label": 1.0} # there is more labels, in the original code

ds = tf.data.Dataset.from_tensor_slices(file_list)
ds.shuffle(...)
out_type = [{'image':tf.float32, "label":tf.float32 }] # ???? 
ds.map(lambda x: tf.py_func(load, [x], out_type))

ds.batch(...)
ds.prefetch(1)

这个答案是为了回应塞尔索·弗兰卡 https://stackoverflow.com/users/8414280/celso-fran%C3%A7a的评论。

我确实找到了一种方法，但没有返回字典而是使用tf_example.SerializeToString().

这两个函数用于动态处理 BERT 输入。它效果很好，为我节省了很多时间的预处理时间，同时在训练过程中没有损失任何性能。

def _convert(label, text):
    """Decodes a csv-line to a TensorFlow Example, serialized as a string."""
    np_label = label.numpy()
    np_text = text.numpy()
    tokens_a = tokenizer.tokenize(np_text)
    # Account for [CLS] and [SEP] with "- 2"
    if len(tokens_a) > seq_length - 2:
        tokens_a = tokens_a[0: (seq_length - 2)]
    tokens = []
    segment_ids = []
    tokens.append("[CLS]")
    segment_ids.append(0)
    for token in tokens_a:
        tokens.append(token)
        segment_ids.append(0)
    tokens.append("[SEP]")
    segment_ids.append(0)

    input_ids = tokenizer.convert_tokens_to_ids(tokens)
    # The mask has 1 for real tokens and 0 for padding tokens. Only real
    # tokens are attended to.
    input_mask = [1] * len(input_ids)

    # Zero-pad up to the sequence length.
    while len(input_ids) < seq_length:
        input_ids.append(0)
        input_mask.append(0)
        segment_ids.append(0)

    assert len(input_ids) == seq_length
    assert len(input_mask) == seq_length
    assert len(segment_ids) == seq_length

    label_id = label_map[np_label]
    features = collections.OrderedDict()
    features["input_ids"] = create_int_feature(input_ids)
    features["input_mask"] = create_int_feature(input_mask)
    features["segment_ids"] = create_int_feature(segment_ids)
    features["label_ids"] = create_int_feature([label_id])
    features["is_real_example"] = create_int_feature([int(True)])
    tf_example = tf.train.Example(features=tf.train.Features(feature=features))
    # tf.py_function only accepts true tf datatypes like string
    return tf_example.SerializeToString()

  def _decode_record(record):
    """Decodes a record to a TensorFlow example."""
    example = tf.parse_single_example(record, name_to_features)
    # tf.Example only supports tf.int64, but the TPU only supports tf.int32.
    # So cast all int64 to int32.
    for name in list(example.keys()):
      t = example[name]
      if t.dtype == tf.int64:
        t = tf.to_int32(t)
      example[name] = t
    return example

  def input_fn(params):
    """The actual input function."""
    filenames = tf.data.Dataset.list_files(file_pattern)
    label_col = processor.get_label_col()
    text_col = processor.get_text_col()
    d = filenames.apply(
      tf.contrib.data.parallel_interleave(
          lambda filename: tf.data.experimental.CsvDataset(filename,
            [tf.float32, tf.string],
            select_cols=[label_col, text_col],
            field_delim=delimiter,
            header=True),
          cycle_length=2))
    if is_training:
      d = d.repeat()
      d = d.shuffle(buffer_size=100)
    d = d.map(lambda label, text: tf.py_function(_convert, [label, text], tf.string))
    d = d.map(_decode_record)
    d = d.batch(batch_size=params["batch_size"], drop_remainder=drop_remainder)
    return d

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

tensorflowdatasets

如何将 py_func 与返回 dict 的函数一起使用的相关文章

Keras 中的 load_model 和 Lambda 层

如何加载具有 lambda 层的模型这是重现行为的代码 MEAN LANDMARKS np load data mean shape 68 npy def add mean landmarks x mean landmarks np ar
使用 JSON 将数据从 Python 导出到 Tableau？

如何以表格形式从 Python 获取 400 万行和 28 列我假设基于搜索我应该使用 JSON 格式这种格式可以处理大量数据并且足够快我制作了 12 行数据的子集并尝试使其正常工作好消息是它正在发挥作用坏消息不是我想要的
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
将鼠标悬停在 Folium 的弹出窗口中

用这样一个简单的例子 import folium map 1 folium Map location 45 372 121 6972 zoom start 12 tiles Stamen Terrain folium Marker 45 3
AttributeError：“函数”对象没有属性“编译”

我一直面临这个属性错误有什么想法可以解决它吗 def model input shape model keras Sequential model add keras layers LSTM 64 input shape 1 9 retu
如何针对 Heroku 路由器的代理/缓冲情况优化 uWSGI？

我在 Heroku 的生产中使用 uWSGI 已有一年多了它似乎比 Gunicorn 处理所有事情都要好得多随着我们的流量扩大我试图更好地理解heroku的路由器和uWSGI之间的接口以优化和防止问题但它对我来说仍然相当不透明我
如何在Tensorflow中读取json文件？

我正在尝试编写一个函数用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
mypy 错误，使用 Union/Optional 重载，“重载函数签名 1 和 2 与不兼容的返回类型重叠”

那么让我们从一个例子开始假设我们有几种可以组合在一起的类型假设我们正在使用 add 来实施这一点不幸的是由于我们无法控制的情况一切都必须是可为空的因此我们被迫使用Optional到处 from typing import O
如何实例化具有已知系数的 Scikit-Learn 线性模型而不进行拟合

背景作为实验的一部分我正在测试各种保存的模型但其中一个模型来自我编写的算法而不是来自 sklearn 模型拟合但是我的自定义模型仍然是线性模型所以我想实例化一个LinearModel实例并设置coef and intercep
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
matplotlib 示例代码不适用于 python 虚拟环境

我正在尝试在 matplotlib 中显示图像的 x y z 坐标示例代码 http matplotlib org examples api image zcoord html在全局 python 安装上工作得很好当我移动光标时 x y
从 FTP 服务器上的 ZIP 存档读取文件，无需下载到本地系统

我在 FTP 服务器上的目标文件是 ZIP 文件 CSV 位于更远的两个文件夹中我如何才能使用 BytesIO 让 pandas 读取 csv 而无需下载它这是我到目前为止所拥有的 ftp FTP FTP SERVER ftp logi
在 SQLAlchemy 中删除父级后删除子级

我的问题如下我有两个型号Entry and Tag通过 SQLAlchemy 中的多对多关系链接现在我想删除所有Tag没有任何对应的Entry后Entry被删除示例来说明我想要的内容 Entry 1带标签python java Ent
Python条件运算符“if else”不等于“and or”[重复]

这个问题在这里已经有答案了我认为下面两个函数的结果会相同但事实并非如此 def fib2 n return n and n lt 2 or fib2 n 1 fib2 n 2 def fib3 m return m if m lt 2
如何在Python中按天对时间序列数据求和？ resample.sum() 没有效果

我是Python新手如何根据日期求和数据并绘制结果我有一个 Series 对象其数据如下 2017 11 03 07 30 00 NaN 2017 11 03 09 18 00 NaN 2017 11 03 10 00 00 NaN
如何使用 Python 从 URL 中删除查询字符串

Example http example com a text q2 text2 q3 text3 q2 text4 删除后 q2 它将返回 http example com q text q3 text3 在这种情况下出现了多个 q2
当使用 cx_Freeze 和 tkinter 时，我得到：“DLL 加载失败：找不到指定的模块。” （Python 3.5.3）

当使用 cx Freeze 和 Tkinter 时我收到以下消息 File C Users VergilTheHuragok AppData Local Programs Python Python35 32 lib tkinter in
是否可以通过 Python 使用 Cocoa API？

我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
Numpy 相当于 if/else 不带循环

有没有任何Pythonic方法可以删除下面代码中的for循环和if else 此代码迭代 NumPy 数组并检查条件并根据条件更改值 gt gt gt import numpy as np gt gt gt x np random rand
从线程队列中获取所有项目

我有一个线程将结果写入队列在另一个线程 GUI 中我定期在 IDLE 事件中检查队列中是否有结果如下所示 def queue get all q items while 1 try items append q get nowai

随机推荐

如何在 xargs 命令中使用 >？

我想找到一个 bash 命令它可以让我 grep 目录中的每个文件并将该 grep 的输出写入一个单独的文件我的猜测是做这样的事情 ls 1 xargs I grep ABC gt out 但是据我所知 xargs 不喜欢双引号但
如何从已知的PID中找到Bundle Identifier？

我有任意正在运行的进程的 pid 进程标识符如何找到关联应用程序的捆绑包标识符如果有我找到了一个仅适用于 10 6 的答案 NSRunningApplication runningApplicationWithProcessIdent
RxRealm pod 更新后在 RxRealm.swift 中构建编译错误：类型“List”不符合协议“NotificationEmitter”

这是文件 RxRealm swift 的顶部部分文件中的其他地方都没有编译错误也没有观察函数 RxRealm extensions Copyright c 2016 RxSwiftCommunity All rights reser
Tensorflow，在另一个 tf.estimator model_fn 中使用 tf.estimator 训练的模型

有没有办法在另一个模型 B 中使用 tf estimator 训练的模型 A 这是情况假设我有一个经过 model a fn 训练的模型 A 模型 A 获取图像作为输入并输出一些类似于 MNIST 分类器的向量浮点值还有另一个模型
何时为自定义视图创建 Interface Builder 插件？

您何时建议使用插件将自定义视图集成到 Interface Builder 中当浏览苹果的时候Interface Builder 插件编程指南 http developer apple com documentation Developer
Windows 上的 QML：使窗口保持在顶部

我确实需要让我的窗口保持在 Windows 的顶部但 Windows 本身似乎并不愿意允许我 https wiki qt io Qt project org faq QWidget activateWindow 28 29 behavio
使内联块在溢出时缩小到内容

I have an inline block container with several other inline block elements like so The container is the blue background t
如何使用 EntityType 字段对 Symfony 4 表单进行单元测试

如何使用 EntityType 字段对 Symfony 4 表单进行单元测试当我运行测试时 vendor bin simple php单元测试 Unit Form ProductFormTest php 这是我的终端中的输出 PHPUni
PSMultiValueSpecifier 的默认值

我有一个 iPhone 应用程序我在其中定义了一个具有以下设置的 Settings bundle
来自网站但不来自控制台应用程序的 Web 服务调用中出现 EndpointNotFoundException

我明白了EndpointNotFoundException在来自网站的 Web 服务调用上而如果我从控制台应用程序执行此操作则同样的调用也有效以下是更详细的异常消息 Could not connect to https TCP err
案例与解码

参考之前的一篇question https stackoverflow com questions 3193384 display sql custom text from table column result 我想知道是否总是可以更换D
Json(/hash) 到 ruby 对象？

在 Javascript 中您可以将 json 作为对象访问 person name first Peter last Parker person name first 在红宝石中我必须像这样使用它 person name first 是
使用 Roslyn 语义模型在单个 .cs 文件中查找符号

我正在使用 Roslyn 创建一个分析器如果特定类以不同步的方式公开其字段该分析器会向用户发出警告以帮助防止竞争条件问题我目前有工作代码可以检查以确保字段是私有的我在解决最后一个难题时遇到了麻烦找出一种方法来确保所有字段只能在
.Net 和 Java 之间的 SSL 套接字，具有客户端身份验证

我正在尝试在 NET 和 Java 之间创建 SSL 套接字服务器客户端在这种情况下我的 SSL 套接字服务器将在 net 中运行客户端在 Linux 下以 Java 运行我的问题是在握手期间连接失败特别是当服务器向客户端请求证
如何在项目中全局声明类型（typescript）

在打字稿项目中有没有办法声明一个类型并在所有文件之间共享它就像我们可以访问全局定义的类型一样node d ts 例如假设在我的项目中IUser是诸如 interface IUser name string mail string 好的
Angular Component CSS 封装是如何工作的？

我想了解如果我创建两个样式表 Style 1 heading color green Style 2 heading color blue 现在如果这两种样式写在两个不同的视图中渲染它们的时候在布局上作为局部视图 https jakey
在 api 21 下将主题应用到对话框时出现奇怪的行为[重复]

这个问题在这里已经有答案了我正在使用主题 Theme AppCompat Light NoActionBar 在我的应用程序中我想让我的一些对话框应用深色 AppCompat 主题所以我为对话框创建了样式当父级是 Theme Ap
webkit-font-smoothing：chrome 和 safari 中的结果突然不同

我曾经在两个 webkit 浏览器 Chrome 和 Safari 中都有相同的输出但突然之间我不知道我可以改变什么 Chrome 中的渲染看起来很糟糕这是我的html li class cat item term term work
使用 Groovy 对 XML 文件进行排序

有没有办法可以使用 Groovy 根据某些属性对 xml 文件进行排序这是我的 xml
如何将 py_func 与返回 dict 的函数一起使用

我正在使用编写输入管道tf data Dataset 我想使用 python 代码来加载和转换我的样本代码返回张量字典不幸的是我不知道如何将其定义为传递给的输出类型tf py func 我有一个解决方法我的函数返回张量列表而不是字典

如何将 py_func 与返回 dict 的函数一起使用

如何将 py_func 与返回 dict 的函数一起使用 的相关文章

随机推荐

热门标签

如何将 py_func 与返回 dict 的函数一起使用的相关文章