将 .npy（numpy 文件）输入到张量流数据管道中

2024-02-14

Tensorflow 似乎缺少“.npy”文件的阅读器。如何将数据文件读入新的tensorflow.data.Dataset pipline？我的数据不适合内存。

每个对象都保存在单独的“.npy”文件中。每个文件包含 2 个不同的 ndarrays 作为特征和一个标量作为它们的标签。

实际上可以使用 TensorFlow 而不是 TFRecords 直接读取 NPY 文件。关键部分是tf.data.FixedLengthRecordDataset https://www.tensorflow.org/api_docs/python/tf/data/FixedLengthRecordDataset and tf.io.decode_raw https://www.tensorflow.org/api_docs/python/tf/io/decode_raw，并查看文档NPY 格式 https://docs.scipy.org/doc/numpy/neps/npy-format.html。为了简单起见，我们假设一个 float32 NPY 文件包含一个形状为(N, K)给出了，并且你知道特征的数量K事先，以及它是一个 float32 数组的事实。 NPY 文件只是一个带有小标头的二进制文件，后面跟着原始数组数据（对象数组不同，但我们现在考虑的是数字）。简而言之，您可以使用如下函数找到该标头的大小：

def npy_header_offset(npy_path):
    with open(str(npy_path), 'rb') as f:
        if f.read(6) != b'\x93NUMPY':
            raise ValueError('Invalid NPY file.')
        version_major, version_minor = f.read(2)
        if version_major == 1:
            header_len_size = 2
        elif version_major == 2:
            header_len_size = 4
        else:
            raise ValueError('Unknown NPY file version {}.{}.'.format(version_major, version_minor))
        header_len = sum(b << (8 * i) for i, b in enumerate(f.read(header_len_size)))
        header = f.read(header_len)
        if not header.endswith(b'\n'):
            raise ValueError('Invalid NPY file.')
        return f.tell()

这样你就可以创建一个像这样的数据集：

import tensorflow as tf

npy_file = 'my_file.npy'
num_features = ...
dtype = tf.float32
header_offset = npy_header_offset(npy_file)
dataset = tf.data.FixedLengthRecordDataset([npy_file], num_features * dtype.size, header_bytes=header_offset)

该数据集的每个元素都包含一长串表示单个示例的字节。您现在可以对其进行解码以获得实际的数组：

dataset = dataset.map(lambda s: tf.io.decode_raw(s, dtype))

不过，这些元素将具有不确定的形状，因为 TensorFlow 不会跟踪字符串的长度。因为您知道特征的数量，所以您可以强制执行形状：

dataset = dataset.map(lambda s: tf.reshape(tf.io.decode_raw(s, dtype), (num_features,)))

同样，您可以选择在批处理后执行此步骤，或以您喜欢的任何方式组合它。

限制是您必须提前知道功能的数量。不过，可以从 NumPy 标头中提取它，只是有点麻烦，而且在任何情况下都很难从 TensorFlow 中提取，因此需要提前知道文件名。另一个限制是，该解决方案要求您每个数据集仅使用一个文件或具有相同标头大小的文件，尽管如果您知道所有数组都具有相同的大小，那么实际上应该是这样。

诚然，如果有人考虑这种方法，最好拥有一个没有标题的纯二进制文件，并且要么对功能数量进行硬编码，要么从不同的源读取它们......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 .npy（numpy 文件）输入到张量流数据管道中的相关文章

TensorFlow 运算符重载

有什么区别 tf add x y and x y 在 TensorFlow 中当您使用以下命令构建图表时您的计算图表会有什么不同代替tf add 更一般地说有或者其他张量超载的操作如果至少有一个x or y is a tf Te
如何每隔一行读取 CSV 文件

如何从 CSV 文件中每 2 行获取数据例如如果我有一个看起来像这样的文件 0 1 0 23 34 1 45 45 2 78 16 3 110 78 4 48 14 5 76 23 6 55 33 7 12 13 8 18 76 如何迭
如何计算 numpy 数组中元素的特定范围

我有一个像这样的数组 import numpy as np data np array 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
查找张量流运算所依赖的所有变量

有没有办法找到给定操作通常是损失所依赖的所有变量我想用它来将该集合传递到optimizer minimize or tf gradients 使用各种set intersection 组合到目前为止我已经找到了op op input
在Python中将数组的元素从科学记数法转换为十进制记数法

我有一个 numpy 数组其元素采用科学格式我想将它们转换为十进制格式我的 numpy 数组如下所示 array 93495052 96955582 98555123 06146193 array 1 00097681e 09 9 9
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam
Numpy 花哨的索引和分配

通常 numpy 会强制分配的左侧和右侧匹配例如如果我这样做a b b必须是相同的形状或广播到相同的形状a 但该规则似乎有一个例外 gt gt gt a np arange 10 gt gt gt a array 0 1 2 3 4 5
Numpy 导入失败

在 RPi2 上我使用 pip review 升级了所有软件包但 numpy 不再工作我尝试通过 pip 和 apt 卸载并重新安装 numpy 但我没有运气 Apt 安装 numpy 1 12 1 如果我尝试安装它不会通过 pip
model.fit 在 Keras 中如何工作？

我之前的帖子或错误是这样的one https stackoverflow com questions 52261090 do the operations defined in array ops in tensorflow have gr
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
keras：zca 美白卡住了 train_datagen.fit()

我尝试将 zca whitening 与 keras 图像处理选项一起使用但计算陷入困境并且永远不会结束我导致问题的代码部分如下所示 train datagen ImageDataGenerator rotation range 30
使用h5py删除hdf5数据集

有没有办法从 hdf5 文件中删除数据集最好使用 h5py 或者是否可以覆盖一个数据集同时保持其他数据集完好无损据我了解 h5py可以以5种模式读取写入hdf5文件 f h5py File filename hdf5 mode 其
ASP.NET 数据集 getdataBy 无法启用约束。一行或多行包含违反非空、唯一或外键约束的值

你好我有一个非常简单的网络表单我在此表单上有一个按钮和一个网格视图以及一个包含链接表 bill docket docket bill 等的数据集在按钮上单击我使用以下代码 protected void button click ob
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
numpy.sum 的内部结构

为什么两个总和返回不同的值事实上如果 0 1 在 IEEE 算术中相加 10 次结果不应该正好是 1 可能是 np sum 对总和进行了不同的分组所以结果偶然恰好是 1 但是有没有有关于此的文档除了研究源代码之外当然 numpy
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
将同一 numpy 数组的两个视图组合成单个视图而不复制数组？

我有一个大型 2d numpy 数组我想删除它的子集并处理函数剩下的内容我需要对许多子集执行此操作因此理想情况下我不想每次都创建数组的副本该函数不会更改数组中的任何值 mat np load filename mat 1 mat i

随机推荐

棋盘游戏胜局 - 搜索算法

我正在寻找可能有效的算法来检测在 19x19 棋盘上玩的五子棋五连棋游戏中的获胜情况当其中一名玩家设法连续获得五颗且不超过五颗石子水平对角线或垂直时就会出现获胜情况我可以轻松访问以下数据两个玩家之前的动作石头存储
如何在选择查询（MySQL）中仅消除连续重复项而不是所有重复项？

我有一个这样的表 01 Jul 17 100 02 Jul 17 100 03 Jul 17 300 04 Jul 17 300 05 Jul 17 500 06 Jul 17 500 07 Jul 17 300 08 Jul 17 400
如何检测隐藏字段篡改？

在我的网络应用程序的一种形式上我有一个隐藏字段出于安全原因我需要保护它免遭篡改我正在尝试提出一个解决方案通过该解决方案我可以检测隐藏字段的值是否已更改并做出适当的反应即使用通用的出现问题请重试错误消息该解决方案应该足
对成员 'tableView(_:numberOfRowsInSection:)' 的引用不明确为什么会出现此错误？

这是我的代码其中出现错误错误出现在第 3 行 if let indexpath override func prepare for segue UIStoryboardSegue sender Any if segue identifi
像一维一样循环二维子图

我正在尝试使用子图绘制许多数据并且没有遇到麻烦但我想知道是否有一种方便的方法可以做到这一点下面是示例代码 import numpy as np import math import matplotlib pyplot as plt q
spectj可以向java.lang.String添加方法吗

我读过aspectj的一些文章我知道它可以增强类这很有吸引力我有一个非常愚蠢的问题我找不到明确的答案 spectj可以向java lang String添加方法吗或者类似的问题如果我无法获取某些类的源代码我可以通过aspect
Kubernetes 集群中的 DisallowedHost Django 部署：无效的 HTTP_HOST 标头

我在 Azure Kubernetes 集群中为前端服务部署了 Django 并进行了一些基本配置但请注意同样的问题也适用于我本地的 Minikube 集群我从远程容器注册表中获取 Django 前端容器映像并公开port 8010
检测数据何时发生变化

好吧故事是这样的我有很多特定格式的文件相当大大约 25GB 需要导入到数据存储中这些文件不断更新数据有时是新的有时是相同的数据我正在尝试找出一种算法来检测文件中特定行是否发生更改以便最大限度地减少更新数据库所花费的时间目
PHP date - 获取本地语言的月份名称

我有这部分功能它给我英文月份的名称我如何将它们翻译成我的当地语言塞尔维亚语 month name date F mktime 0 0 0 i Where i是月份的数字值 1 12 也可以看看PHP mktime https www
用于旋转相机意图捕获的图像的代码在 Android 中不起作用

我有一个问题使用相机意图捕获的图像被旋转我在为什么使用相机意图捕获的图像在某些 Android 设备上会旋转 https stackoverflow com questions 14066038 why image captured u
当选择标签样式属性设置为 display: none; 时如何从下拉列表中检索值在 python 硒中

我正在尝试废弃一个网站的下拉类别的所有组合但是选项的文本属性仅为空白尽管在检查时我可以看到每个选项都存在文本 from selenium import webdriver from selenium webdriver suppor
如何使用 .Mdf 文件部署 C# exe？

我已经创建了 Windows 应用程序并且创建了本地数据库并添加了用户名和密码如果用户名和密码正确那么我必须打开代码我已经生成了一个 Setup Msi 但是当我尝试在我的机器中安装时它工作正常但是当我尝试在其他没有 Net或任何
为什么 SQL Server '=' 比较器不区分大小写？

我刚刚意识到 SQL Server 比较器在用于文本比较时不区分大小写我对这个功能有几个疑问这对于所有数据库都相同还是特定于 SQL Server 我一直在使用lower函数以确保文本比较到目前为止不敏感遵循同样的做法仍然是一个好主意
Slim - 如何发送带有“Content-Type：application/json”标头的响应？

我有这个简单的 REST api 用 Slim 完成
通过Ajax将画布图像数据（Uint8ClampedArray）发送到Flask Server

我想通过 AJAX 将 HTML5 上的图像数据发送到 Flask 服务器后端我从使用中提取相关图像数据context getImageData a b c d 并且理想情况下希望能够在我的 Flask 后端以 numpy 数组的形式访问
如何使 cocos2d 精灵每秒缩放（以获得脉动效果）？

我想让精灵每秒缩放一次使其看起来像是鼓起来并脉动我怎样才能做到这一点由于之前的帖子包含语法错误更准确地说我发布了工作代码 CCSprite sprite create the sprite id scaleUpAction CCE
Xcode 4、dylib 和 install_name_tool

我正在尝试让 dylib 在我的 OSX 项目中工作我一直在阅读一些示例特别是这个 Xcode 4 添加 dylib https stackoverflow com questions 6801709 xcode 4 adding dy
Python 模块中的类内相关性？

我正在寻找计算组内相关性 ICC https en wikipedia org wiki Intraclass correlation在Python中我还没有找到具有此功能的现有模块有替代名称吗还是我应该自己起一个我知道有人问了这个
使用SIMD解包8位到16位：AVX2版本混淆了顺序

我正在尝试使用 SSE2 来解压带零的文本并将其扩展到 AVX2 这就是我的意思假设您有这样的文本 abcd 我正在尝试使用SSE2来解压abcd into a 0b 0c 0d The 0是零这当然适用于 16 个字符而不是 4 个
将 .npy（numpy 文件）输入到张量流数据管道中

Tensorflow 似乎缺少 npy 文件的阅读器如何将数据文件读入新的tensorflow data Dataset pipline 我的数据不适合内存每个对象都保存在单独的 npy 文件中每个文件包含 2 个不同的 ndarra

将 .npy（numpy 文件）输入到张量流数据管道中

将 .npy（numpy 文件）输入到张量流数据管道中 的相关文章

随机推荐

热门标签

将 .npy（numpy 文件）输入到张量流数据管道中的相关文章