python h5py：我可以存储不同列具有不同类型的数据集吗？

2023-11-30

假设我有一个表，有很多列，只有几列是浮点类型，其他都是小整数，例如：

col1, col2, col3, col4
1.31   1      2     3
2.33   3      5     4
...

假设我使用，我怎样才能有效地存储它np.float32对于这个数据集，存储被浪费了，因为其他列只有一个小整数，它们不需要那么多空间。如果我使用np.int16，浮动列不准确，这也是我想要的。那么我该如何处理这样的情况呢？

假设我还有一个字符串列，这让我更加困惑，我应该如何存储数据？

col1, col2, col3, col4, col5
1.31   1      2     3    "a"
2.33   3      5     4    "b"
...

Edit:

为了让事情变得更简单，我们假设字符串列仅包含固定长度的字符串，例如长度为 3。

我将演示结构化数组方法：

我猜您是从 csv 文件“表”开始的。如果没有，这仍然是将样本转换为数组的最简单方法：

In [40]: txt = '''col1, col2, col3, col4, col5
    ...: 1.31   1      2     3    "a"
    ...: 2.33   3      5     4    "b"
    ...: '''


In [42]: data = np.genfromtxt(txt.splitlines(), names=True, dtype=None, encoding=None)

In [43]: data
Out[43]: 
array([(1.31, 1, 2, 3, '"a"'), (2.33, 3, 5, 4, '"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i8'), ('col3', '<i8'), ('col4', '<i8'), ('col5', '<U3')])

有了这些参数，genfromtxt负责创建结构化数组。请注意，它是一个具有 5 个字段的一维数组。字段 dtype 由数据确定。

In [44]: import h5py
...

In [46]: f = h5py.File('struct.h5', 'w')

In [48]: ds = f.create_dataset('data',data=data)
...
TypeError: No conversion path for dtype: dtype('<U3')

But h5py保存 unicode 字符串时出现问题（py3 的默认值）。可能有解决方法，但这里将字符串数据类型转换为字节串会更简单。此外，这样会更加紧凑。

为了转换它，我将创建一个新的dtype，并使用astype。或者，我可以在中指定 dtypesgenfromtxt call.

In [49]: data.dtype
Out[49]: dtype([('col1', '<f8'), ('col2', '<i8'), ('col3', '<i8'), ('col4', '<i8'), ('col5', '<U3')])

In [50]: data.dtype.descr
Out[50]: 
[('col1', '<f8'),
 ('col2', '<i8'),
 ('col3', '<i8'),
 ('col4', '<i8'),
 ('col5', '<U3')]

In [51]: dt1 = data.dtype.descr

In [52]: dt1[-1] = ('col5', 'S3')

In [53]: data.astype(dt1)
Out[53]: 
array([(1.31, 1, 2, 3, b'"a"'), (2.33, 3, 5, 4, b'"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i8'), ('col3', '<i8'), ('col4', '<i8'), ('col5', 'S3')])

现在它可以毫无问题地保存数组：

In [54]: data1 = data.astype(dt1)

In [55]: data1
Out[55]: 
array([(1.31, 1, 2, 3, b'"a"'), (2.33, 3, 5, 4, b'"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i8'), ('col3', '<i8'), ('col4', '<i8'), ('col5', 'S3')])

In [56]: ds = f.create_dataset('data',data=data1)

In [57]: ds
Out[57]: <HDF5 dataset "data": shape (2,), type "|V35">

In [58]: ds[:]
Out[58]: 
array([(1.31, 1, 2, 3, b'"a"'), (2.33, 3, 5, 4, b'"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i8'), ('col3', '<i8'), ('col4', '<i8'), ('col5', 'S3')])

我可以进行进一步的修改，缩短一个或多个 int 字段：

In [60]: dt1[1] = ('col2','i2')    
In [61]: dt1[2] = ('col3','i2')

In [62]: dt1
Out[62]: 
[('col1', '<f8'),
 ('col2', 'i2'),
 ('col3', 'i2'),
 ('col4', '<i8'),
 ('col5', 'S3')]

In [63]: data1 = data.astype(dt1)

In [64]: data1
Out[64]: 
array([(1.31, 1, 2, 3, b'"a"'), (2.33, 3, 5, 4, b'"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i2'), ('col3', '<i2'), ('col4', '<i8'), ('col5', 'S3')])

In [65]: ds1 = f.create_dataset('data1',data=data1)

ds1具有更紧凑的存储，“V23”与“V35”

In [67]: ds1
Out[67]: <HDF5 dataset "data1": shape (2,), type "|V23">

In [68]: ds1[:]
Out[68]: 
array([(1.31, 1, 2, 3, b'"a"'), (2.33, 3, 5, 4, b'"b"')],
      dtype=[('col1', '<f8'), ('col2', '<i2'), ('col3', '<i2'), ('col4', '<i8'), ('col5', 'S3')])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

HDF5

h5py

python h5py：我可以存储不同列具有不同类型的数据集吗？的相关文章

使用三个一维数组绘制等值线图

正如标题所示我想使用三个一维数组绘制等高线图这么说吧 x np array 1 2 3 and y np array 1 2 3 and z np array 20 21 45 为了在 matplotlib 中绘制等高线图我对x an
将 ical 附件的邮件消息的内容类型设置为“text/calendar; method=REQUEST”

我正在尝试使用 App Engine 邮件 API 从 App Engine 发送 iCalendar 格式的 ics 文件这在 GMail 中非常有效但是 Outlook 无法识别该文件我认为问题在于内容类型设置为文本日历而不
如何并排绘制具有相同 X 坐标的条形图（“闪避”）

import matplotlib pyplot as plt gridnumber range 1 4 b1 plt bar gridnumber 0 2 0 3 0 1 width 0 4 label Bar 1 align cente
函数名称未定义

我有一段代码看起来像这样 if name main main def main print hello 但是当我尝试运行此代码时出现错误 NameError 名称 main 未定义我是否没有在函数 def main 的第一行定义名称
pandas read_csv 之前预处理数据文件

我使用 SAP 的数据输出但它既不是 CSV 因为它不引用包含其分隔符的字符串也不是固定宽度因为它具有多字节字符它是一种固定宽度字符为了将其放入 pandas 我当前读取文件获取分隔符位置对分隔符周围的每一行进行切片然后
在 python 中发送标头[重复]

这个问题在这里已经有答案了我有以下 python 脚本我想发送假标头信息以便我的应用程序就像 Firefox 一样运行我怎么能这么做呢 import urllib urllib2 cookielib username passw
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
将列表值转换为 pandas 中的行

我有数据帧其中一列具有相同长度的 numpy ndarray 值 df list 0 Out 92 array 0 0 0 0 29273096 0 30691767 0 27531403 我想将这些列表值转换为数据框并从 df iloc
右键单击 QPushButton 上的 contextMenu

对于我的应用程序我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码关于一些QPushButton 与设计器创建我想添加右键单击上下文菜单菜单选项取决于应用程序状态如何实现这样的上下文菜单
Pandas 中每列的曲线拟合 + 外推值

我有一个包含大约 300 列的数据集每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲
Python GTK3 Treeview 向上或向下移动选择

如何在树视图中向上或向下移动所选内容我的想法是我可以使用向上和向下按钮将选择向上移动一行或向下移动一行我的 Treeview 使用 ListStore 不确定这是否重要首先我将使用我熟悉的 C 代码如果您在将其翻译为 Pytho
为什么我无法杀死 k8s pod 中的 python 进程？

我试图杀死一个 python 进程 ps aux grep python root 1 12 6 2 1 2234740 1332316 Ssl 20 04 19 36 usr bin python3 batch run py root 4
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
在Python中随机交错2个数组

假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度但我不希望它们以确定性的方式交错简而言之仅仅压缩这两个数组是不够的我不想要 c 1 5 2 6 3
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
如何在类型提示中定义元组或列表的大小

有没有办法在参数的类型提示中定义元组或列表的大小目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
Django 中使用外键的抽象基类继承

我正在尝试在 Django 支持的网站上进行模型继承以遵守 DRY 我的目标是使用一个名为 BasicCompany 的抽象基类来为三个子类提供通用信息 Butcher Baker CandlestickMaker 它们位于各自的应用程序
关闭正在运行代码的 IPython Notebook

怎么运行的我在 IPython Notebook 中运行了一些代码一些迭代工作我不小心关闭了正在运行的笔记本的浏览器但回到 IPython 仪表板我发现这个特定的笔记本尚未关闭所以如果我再次打开笔记本我会在它正在执行的代码前面
如何使用 keras.backend.gradients() 获取梯度值

我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重的导数似乎最简单的方法是使用 keras backend 中的梯度它返回梯度张量 https keras io backend https keras io backe

随机推荐

Haskell Esqueleto 将列子集投影到自定义记录列表

在所有的例子中我都看到了结果埃斯克莱托被投影到元组列表中或实体记录例如 previousLogItems lt select from li gt do orderBy desc li LogItemId limit 10 return
在我的 iOS 应用程序中使用 IOKit 会导致我的应用程序被拒绝吗？

开发人员正如提到的EricaIOKit是一个半私有框架有人有在应用程序商店应用程序中使用它的经验吗我想用它来获取 IMEI 和 ICCID 号码如果您调用任何未记录的 Apple 框架您的应用程序将被拒绝因此人们不太可能有在应
如何处理 IE 8 中缺少 JavaScript Object.bind() 方法

我正在编写一些 JavaScript 它使用Object bind method funcabc function x y z this myx x this playUB function w if this myx null do bl
有谁知道协议缓冲区的 Ada 插件吗？

我正在寻找用于协议缓冲区的 Ada 插件看起来除了 Ada 之外几乎所有语言插件都可用或正在开发中嗯我唯一发现的是这篇论文不幸的是我没有找到任何翻译工具的源代码即你所说的plugin 我唯一能告诉的是该工具是用 C 开发的 U
将向量的向量打印到 ostream

请考虑以下代码我正在尝试将向量的向量输出到 ostream include
如何从任何字符串网址获取网站名称[关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我已经给出了包含任何有效 url 的字符串我必须从给定的网址中找到网站的名称我也忽略了子域 like http www yahoo com gt yahoo www google
向多个图层组添加标记

我使用 StyledLayerControl 和 markcluster 使用 leafletjs 创建了一张地图 https www wiva at v2 basemap kartentest 每个标记代表一个适合一个类别图层组的研究
根据身体负荷向下滑动一个 div

如何让 div 在页面加载时隐藏然后在页面加载后向下滑动我不想使用 CSSdisplay none 尝试一下这个小提琴 http jsfiddle net ahr3U 这基本上使用 CSS3 设置过渡的所有参数过渡属性使动画成为可能
jshn - 如何解析 json 包

我想知道如何在openwrt上轻松解析json 我有 jhsn 来解析 json 这是我的程序 sh 脚本 download weather wget api openweathermap org data 2 5 weather id 2
在派生类中调用 super() 时，可以传入 self.__class__ 吗？ [复制]

这个问题在这里已经有答案了我最近发现通过 StackOverflow 要调用基类中的方法我应该调用 super derived class self base class method 很好它有效但是我发现自己在进行更改时经常在
使用加密后在终结器线程中获取“ReleaseHandleFailed”MDA

运行此代码后我得到了 MDA第二次在一个循环中使用不同的file范围 byte encryptedData File ReadAllBytes file before this line it throws see exception b
.on("click") 在 iOS 上不起作用

我注意到 body on click id function event 不适用于 iOS 而 id on click function event 工作完美相同的站点相同的 jQuery 最新相同的 DOM 我不能使用后者因为 i
Paypal Ipn 与 asp.net MVC 集成

HomeControler Index cshtml页面如下 div div
无法创建适合文本大小的 HTML Div 元素

我无法让 div 适合其内部文本的大小我有 2 个 div 我希望内部 div 能够 1 适合外部 div 内部 2 位于包装 div 内的中心我遇到的问题是当我调整视图的宽度时文本和 div 边框之间出现了很大的不必要的间隙如下
这个素数相关谓词的瓶颈是什么？

所以这里是我正在尝试计算低于两百万的所有素数的总和对于这个问题但是我的程序非常慢我确实知道该算法本身非常糟糕并且是一种蛮力算法但对我来说它似乎比应有的速度要慢得多这里我将搜索限制为 20 000 这样结果就不会等待太久我不认为
扩展 Wpf Treeview 以支持排序

您好我创建了这个小示例我想扩展它以支持排序 public class Country public string Name get set public int SortOrder get set My xaml
使用 Python 请求抓取整个滚动加载页面

具体来说我试图抓取整个页面但只得到其中的一部分如果我使用 r requests get http store nike com us en us pw mens shoes 7puZoi3 ipp 120 它只获取页面的可见部分
Oracle 批量导入

Oracle 中的批量导入我已经创建了表 emp 我需要将文件中的批量数据导入到 emp 中 For Ex CREATE TABLE emp c1 NUMBER c2 VARCHAR2 30 文件路径 C Documents and Se
将更新的值从 jqGrid 弹出窗口传递到控制器 MVC3

我有一个jqgrid在编辑行期间弹出窗口会打开更新值后必须将其发送到控制器现在调用控制器中的方法但我不确定如何将值传递给控制器 jqGrid jQuery jQGridDemo jqGrid url Url Action LoadD
python h5py：我可以存储不同列具有不同类型的数据集吗？

假设我有一个表有很多列只有几列是浮点类型其他都是小整数例如 col1 col2 col3 col4 1 31 1 2 3 2 33 3 5 4 假设我使用我怎样才能有效地存储它np float32对于这个数据集存储被浪费了因为

python h5py：我可以存储不同列具有不同类型的数据集吗？

Edit:

python h5py：我可以存储不同列具有不同类型的数据集吗？ 的相关文章

随机推荐

热门标签

python h5py：我可以存储不同列具有不同类型的数据集吗？的相关文章