存储和读取大量 3D 数据集的空间有效方式？ [关闭]

2023-12-30

我正在尝试根据顺序数据训练神经网络。我的数据集将包含 360 万个训练样本。每个示例都是 30 x 32 ndarray（在 30 天内观察到 32 个特征）。

我的问题是写入和读取这些数据最节省空间的方法是什么？

本质上它会有形状(3.6m, 30, 32) and np.save()看起来很方便，但我无法将整个事情保存在内存中，所以我无法真正使用它来保存它np.save()（或使用加载它np.load()）。 CSV 也不起作用，因为我的数据有 3 个维度。

我创建这个东西的计划是批量处理条目并将它们附加到某个文件中，以便我可以在使用时保持空闲内存。

最终，我将使用数据文件作为 PyTorch IterableDataset 的输入，因此它必须是可以一次加载一行的文件（例如.txt文件，但我希望有一些更好的方法来保存这些数据，更符合其表格、3 维性质）。任何想法表示赞赏！

另一种解决方案是使用内存映射张量。这类似于其他解决方案 https://stackoverflow.com/a/64408076/2790047但在我看来更好，因为它抽象了与二进制数据的直接交互，并在更高的抽象级别上运行。

每个张量使用以下方式存储其数据Storage目的。这种机制允许我们使用定义内存映射存储系统FloatStorage.from_file https://pytorch.org/docs/master/storage.html#torch.FloatStorage.from_file。使用内存映射张量可以让我们将数据集写入磁盘并读取它，就好像它是形状为普通张量 (3600000, 32, 30) 一样，而无需直接将该内存存储在 RAM 中。

例如，我们可以使用类似以下内容将数据集写入磁盘

import torch

filename = 'data.bin'
num_samples = 3600000
rows, cols = 32, 30

# shared=True allows us to save the tensor to disk as we perform in place modifications to it
samples = torch.FloatTensor(torch.FloatStorage.from_file(filename, shared=True, size=num_samples * rows * cols)).reshape(num_samples, rows, cols)

for idx in tqdm(range(num_samples)):
    # placeholder random samples, insert your actual samples here
    # every in-place assignment to samples is automatically reflected on the disk
    samples[idx] = torch.randn(rows, cols)

这样做的好处是与内置兼容TensorDataset https://pytorch.org/docs/stable/data.html#torch.utils.data.TensorDataset

from torch.utils.data import TensorDataset, DataLoader

filename = 'data.bin'
num_samples = 3600000
rows, cols = 32, 30

# shared=False prevents changes to samples from affecting the data on disk
samples = torch.FloatTensor(torch.FloatStorage.from_file(filename, shared=False, size=num_samples * rows * cols)).reshape(num_samples, rows, cols)

dataset = TensorDataset(samples)
loader = DataLoader(dataset, batch_size=256, num_workers=0)

for batch in tqdm(loader):
    # batch is a (256, 32, 30) tensor
    pass

100%|██████████| 14063/14063 [00:11<00:00, 1216.80it/s]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

存储和读取大量 3D 数据集的空间有效方式？ [关闭] 的相关文章

使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

如何使用scanf限制输入长度

在此程序中我采用了大小为 3 4 的维字符数组只要我每行输入 3 个字符它就可以正常工作例如如果我输入abc abd abd我得到相同的输出但如果我在第一行第二行或第三行输入更多字母则会出现错误我应该如何检查二维中的空字符
如何防止NFC标签克隆？

我正在使用 NFC 标签制作一个应用程序并且必须防止 NFC 标签被克隆我见过许多其他 NFC 标签当尝试克隆时会显示弹出消息克隆受到限制标签由密钥保护我希望我的 NFC 标签具有相同的安全性这取决于您使用的标签类型以及您想
NSOpenPanel runModal 崩溃？

我有一个基于此论坛上找到的代码的例程 FSRef useOpenFileToGetFSRef NSString fileName requiredFileType NSString requiredFileType FSRef fileFS
轴标签与表达式的 R 对齐

我想绘制一个变量名称及其符号由于某些变量的名称很长因此我尝试将换行符与轴标签混合使用这会导致对齐中发生有趣的事情 par mar c 1 12 1 1 plot y 1 6 1 6 yaxt n ylim c 1 6 ylab axi
从面板中删除关键侦听器

是否可以清除我放在我的监听器JPanel 当我调用一个方法时我放了一个KeyListener在面板上但是当我退出此方法时我想清除该侦听器这是我的方法 private void stopBall final Graphics2D g2
VScode 抱怨 Java 项目没有显式编码集

直到最近我一直使用 vscode 没有任何问题现在没有错误出现一些变量永远不会改变颜色我不断收到错误消息项目没有明确的编码集我不知道我需要做什么来修复它就在几分钟前我也遇到了同样的问题这是我修复它的方法单击齿轮图标单击
更新 cabal-install，但版本没有改变

目前我正在使用 cabal install 1 16 0 我尝试更新 cabal install 因为有人告诉我有更新版本的 ghc 7 6 1 可用除了这条消息之外安装结果非常成功警告无法在 Users MyName Librar
对 flatList 中的项目进行排序

在我的 React Native 应用程序中我显示了我的办公室提供的服务以及这些服务在平面列表中的位置我还在同一个公寓列表中显示了从该人当前地址开始的服务里程我希望这些服务按里程排序下面是我的屏幕数据以下地点提供服务 123 Te
将 ftable（列联表）转换为 R 中的数据帧

我正在生成一个ftable 通过在xtabs命令的结果上运行ftable 并且我得到以下内容 Var1 Var2 date group 2007 01 01 q1 1 9 q2 2 8
@jsonview of jackson 不使用 jax-rs

我写了以下代码 class A public static class Public Entity class public class B JsonView A Public class int a int b public class
如何强制关闭串口连接？

我有通过 USB 串行通信连接到 PC 的设备我正在执行以下步骤启动设备开机设备将在我的 PC 中检测为 COMx 名称开始我的申请基于COM PID VID 我连接到设备进行沟通到目前为止我没有遇到任何问题当我关闭设备时
接口的扩展方法的优先级是否低于不太具体的扩展方法？

我有以下扩展类 public static class MatcherExtensions public static ExecMatcher
收益率返回与返回 IEnumerable

我注意到阅读时有一些好奇的事情IDataReader在我无法理解的 using 语句中虽然我确信答案很简单为什么在里面时using SqlDataReader rd 如果我直接执行yield return阅读器在阅读期间保持打开状态但
BinaryFormatter 和反序列化复杂对象

无法反序列化以下对象图当在 BinaryFormmater 上调用反序列化方法时会发生该异常 System Runtime Serialization SerializationException The constructor to
如何从本机应用程序的 azure Active Directory 获取客户端密钥以使用 One Drive 业务 API？

我正在开发一个 Outlook 插件我想在其中使用 One Drive API 我轻松获得了使用 API 进行 One Drive 个人帐户的客户端 ID 和客户端密钥但是当我在 Azure Active Directory 中注册
PHP 比较日期时间值

在我的 PHP 应用程序中我尝试比较日期时间值如下所示 if datetime from db lt date Y m d H i s then do something 两个值的格式相同我不明白的是为什么它只比较日期而忽略时间日期
Rails 3.1 中可以使用 << 运算符插入多个对象吗？

我可以写以下内容吗 raw data categories each do category obj categories lt lt category end 如下所示 obj categories lt lt raw data cate
OpenCV项目点的逆向

我有一个面向棋盘的相机我知道这些点的世界 3D 位置以及相机图像上相应投影点的 2D 位置所有世界点都属于同一平面我使用solvePnP Matx33d camMat Matx41d distCoeffs Matx31d rvec M
在 R 中使用 tapply、ave 函数计算 ff 向量

我一直在尝试使用tapply ave ddply按变量组年龄性别创建统计数据我无法成功使用上述 R 命令 library ff df lt as ffdf data frame a c 1 1 1 3 1 5 b c 10 1 c
存储和读取大量 3D 数据集的空间有效方式？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试根据顺序数据训练神经网络我的数据集将包含 360 万个训练样本每个示例都是 30 x 32 ndarray 在 30 天内观察

存储和读取大量 3D 数据集的空间有效方式？ [关闭]

存储和读取大量 3D 数据集的空间有效方式？ [关闭] 的相关文章

随机推荐

热门标签