尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列

2024-03-05

这就是我的数据框的样子。第一列是一个整数。第二列是 512 个整数的单个列表。

IndexID Ids
1899317 [0, 47715, 1757, 9, 38994, 230, 12, 241, 12228...
22861131    [0, 48156, 154, 6304, 43611, 11, 9496, 8982, 1...
2163410 [0, 26039, 41156, 227, 860, 3320, 6673, 260, 1...
15760716    [0, 40883, 4086, 11, 5, 18559, 1923, 1494, 4, ...
12244098    [0, 45651, 4128, 227, 5, 10397, 995, 731, 9, 3...

我将其保存到 hdf 并尝试使用打开它

df.to_hdf('test.h5', key='df', data_columns=True)
h3 = h5py.File('test.h5')

当我列出键时，我看到 4 个键

h3['df'].keys()

KeysViewHDF5 ['axis0', 'axis1', 'block0_items', 'block0_values']

Axis1 看到包含第一列的值

h3['df']['axis1'][0:5]

数组([ 1899317, 22861131, 2163410, 15760716, 12244098,

但是，第二列似乎没有数据。确实还有另一列包含其他数据

h3['df']['block0_values'][0][0:5]

但这似乎与第二列中的任何数据都不对应

数组([128, 4, 149, 1, 0], dtype=uint8)

Purpose

我最终尝试创建一个内存映射的数据存储，它使用特定索引检索数据。

所以像

h3['df']['workingIndex'][22861131, 15760716]

会检索

[0, 48156, 154, 6304, 43611, 11, 9496, 8982, 1...],
[0, 40883, 4086, 11, 5, 18559, 1923, 1494, 4, ...

问题是你正在尝试序列化 Pandas 系列的 Python 列表，但它不是矩形的（它是锯齿状的）。

Pandas 和 HDF5 主要用于矩形（立方体、超立方体等）数据，而不是锯齿状的列表列表。

您致电时是否看到此警告to_hdf()?

PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block0_values] [items->['Ids']]

它试图告诉您的是列表列表不以直观、高性能的方式支持。如果您运行 HDF5 可视化工具，例如h5dump在你的输出文件中，你会看到哪里出了问题。索引（表现良好）如下所示：

  DATASET "axis1" {
     DATATYPE  H5T_STD_I64LE
     DATASPACE  SIMPLE { ( 5 ) / ( 5 ) }
     DATA {
     (0): 1899317, 22861131, 2163410, 15760716, 12244098
     }
     ATTRIBUTE "CLASS" {
        DATA {
        (0): "ARRAY"
        }
     }

但值（列表的列表）看起来像这样：

  DATASET "block0_values" {
     DATATYPE  H5T_VLEN { H5T_STD_U8LE}
     DATASPACE  SIMPLE { ( 1 ) / ( H5S_UNLIMITED ) }
     DATA {
     (0): (128, 5, 149, 164, ...)
     }
     ATTRIBUTE "CLASS" {
        DATA {
        (0): "VLARRAY"
        }
     }
     ATTRIBUTE "PSEUDOATOM" {
        DATA {
        (0): "object"
        }
     }

所发生的情况正是 PerformanceWarning 向您发出的警告：

> PyTables will pickle object types that it cannot map directly to c-types

您的列表列表正在被腌制并存储为 H5T_VLEN，这只是一个字节块。

您可以通过以下一些方法来解决此问题：

将每一行存储在 HDF5 中的单独键下。也就是说，每个列表都将存储为一个数组，并且它们都可以具有不同的长度。这对于 HDF5 来说没有问题，因为它支持一个文件中包含任意数量的密钥。
将您的数据更改为矩形，例如通过用零填充较短的列表。看：Pandas 将列表的列拆分为多列 https://stackoverflow.com/questions/35491274/pandas-split-column-of-lists-into-multiple-columns
使用 h5py 以您喜欢的任何格式写入数据。它比 Pandas/PyTables 更灵活，并且创建更简单（但更强大）的 HDF5 文件。这是一个例子（它表明 h5py 实际上可以存储锯齿状数组，尽管它并不漂亮）：使用h5py存储多维可变长度数组 https://stackoverflow.com/questions/42658438/storing-multidimensional-variable-length-array-with-h5py

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

HDFS

HDF5

h5py

pytables

尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列的相关文章

使用 pandas to_datetime 时如何定义格式？

我想根据以下内容绘制结果与时间的关系图testresult csv文件具有以下格式并且我无法正确定义 TIME 列的数据类型 TIME RESULT 03 24 2016 12 27 11 AM 2 03 24 2016 12 28 41
pandas：如何将嵌套 JSON 解包为数据帧？

我有这样的 JSON 输出 json json SeriousDlqin2yrs prediction 0 prediction probs 0 0 95 1 0 04 SeriousDlqin2yrs prediction 0 predi
从数据帧字典中获取单独的数据帧 Python

我有一本字典d充满了数据帧的集合 key type size value gm1 dataframe mxn gm2 dataframe mxN gm10 dataframe nxM 我想使用它们来一一输出这些数据帧keys作为新数据框的名
为 pandas 数据框中的两列创建邻接矩阵

我有一个以下形式的数据框 index Name A Name B 0 Adam Ben 1 Chris David 2 Adam Chris 3 Ben Chris 我想获得邻接矩阵Name A and Name B ie Adam Ben
如何检查两个数据集的匹配列之间的相关性？

如果我们有数据集 import pandas as pd a pd DataFrame A 34 12 78 84 26 B 54 87 35 25 82 C 56 78 0 14 13 D 0 23 72 56 14 E 78 12 31
Pandas 根据另一列的条件有选择地覆盖列中的值

我有一个带有四列的 pandas 数据框数据由字符串组成样本 A B C D 0 2 asicdsada v cVccv u 1 4 ascccaiiidncll v cVccv ccvc u 2 9 sca V c u 3 11 lk
将 Python 中创建的 pandas 数据框插入 SQL Server

如前所述我在 Python 中创建了一个数据集合 40k 行 5 列我想将其插入 SQL Server 表中通常在 SQL 中我会做一个 select into myTable from dataTable 调用来执行插入但是 p
如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
DataFrame 中的字符串，但 dtype 是对象

为什么 Pandas 告诉我我有对象尽管所选列中的每个项目都是一个字符串即使在显式转换之后也是如此这是我的数据框
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
Pandas，按最大返回值进行分组 AssertionError：

熊猫有问题我想听听你的意见我有这个数据框我需要在其中获取最大值代码就在下面 df stack pd DataFrame 1 0 2016 0 NonResidential Hotel 98101 0 DOWNTOWN 47 6122
如何使用to_sql将pandas数据帧写入oracle数据库？

我是一个新的oracle学习者我正在尝试将 pandas 数据帧写入 oracle 表中经过网上研究我发现代码本身很简单但我不知道为什么我的代码不起作用我已经从本地文件中读取了 pandas 数据框 import cx Oracl
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
AttributeError：“DataFrame”对象没有属性“ix”

当我尝试使用 pandas 数据框的 ix 属性拉出列时出现此错误例如df ix col header AttributeError DataFrame object has no attribute ix 该脚本今天早上有效但今天下
Python Pandas：如何替换包含“？”的字符串

我有一个 Python 2 7 Pandas Dataframe 如下所示 Id Title URL Id 1 Bruce Almighty https www youtube com watch v 5VGyTOGxyVA Id 2 Su
获取pandas数据框列中值的长度

我试图获取下面提到的数据框中每个 zipCd 值的长度当我运行下面的代码时每条记录都得到 958 我期待得到更像 4 的东西有人看出问题是什么吗 Code zipDfCopy zipCd str len Data print zipD
无法对列数据重新排序

我有数据框而不是序列如果我使用len df columns 我的数据有3586列如何重新排序数据序列 ID V1 V10 V100 V1000 V1001 V1002 V990 V991 V992 V993 V994 A 1 9 0 2
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df

随机推荐

ARKitestimatedVerticalPlane命中测试获取平面旋转

我正在使用 ARKit 在运行时检测墙壁当触摸屏幕的某个点时我使用 estimatedVerticalPlane 类型的命中测试我正在尝试将 Y 旋转应用于与检测到的平面方向相对应的节点我想计算旋转 private func com
VBA 将工作表保存到受密码保护的 PDF

以下命令将活动表另存为 PDF ActiveSheet ExportAsFixedFormat Type xlTypePDF Filename C blahblah2 pdf Quality xlQualityStandard Ignore
使用 Dancer 和 Postgres 的简单登录/授权系统

作为 Perl 的新手我正在努力寻找一种简单的方法来做到这一点我在数据库中创建了一个非常简单的表 CREATE TABLE users id SERIAL NOT NULL PRIMARY KEY username TEXT NOT N
如何在 Yii2 html::dropdownlist 中保留所选值？

我认为有以下代码 and submit button 我的代码运行良好但有一个大问题我选择一个区域并单击搜索按钮结果正确当我单击下一页时每页显示 10 个结果它给了我
如何在 WinDbg 中删除断点 ntdll!DbgBreakPoint+0x1

我正在调试一个在将 WinDbg 设置为事后调试器时崩溃的程序我在地址 77f7f571 设置了断点当它被触发时我常常得到以下信息 ERROR Symbol file could not be found Defaulted to e
导入库 Oshi

我想开发一个显示计算机信息的程序我找到了一个名为 Oshi https github com oshi oshi 当我导入该库并运行我的代码时出现异常 Exception in thread main java lang NoClass
无法从 CursorWindow 读取第 0 行第 9 列

我收到错误无法从 CursorWindow 读取第 0 行第 9 列在访问游标中的数据之前请确保游标已正确初始化另外两个人能够毫无错误地运行代码但在我的机器上它会抛出错误我很困惑下面是处理 SQLite 的代码提前致谢抱歉
如何使用 Arcore 截屏？

我正在尝试截取增强现实屏幕的屏幕截图并将其作为位图传递给另一个活动这是我用来截取屏幕截图的代码截图功能 public static void tmpScreenshot Bitmap bmp Context context try Wr
在聚集索引上使用顺序 GUID 键插入的速度并没有明显加快

在 SQL Server 2008 中我尝试重现顺序与非顺序 GUID 键上的聚集索引的实验结果如下所示http sqlblog com blogs denis gobo archive 2009 02 05 11743 aspx ht
如何在python中解析ISO格式的日期时间字符串？

在 pandas 中我们如何根据这些数据创建日期时间列 df pd DataFrame date 2020 02 04T22 03 44 846000 00 00 print df date 0 2020 02 04T22 03 44 8
使用 VBA 双击单元格以显示 Excel 中链接中的图片

我有以下功能如果您将鼠标悬停在图片上它将显示图片它非常整洁并且运行良好但是我想将其从在其上运行鼠标更改为双击功能下面是当您将鼠标悬停在单元格上时将显示图片的有效代码 Dim DoOnce As Boolean Public Fu
导航栏中带有大图块或搜索栏的 UIRefreshControl 的动画出现故障

我有一个嵌入导航控制器的控制器带有大标题和 UIRefreshControl 当我在 tableView 上进行拉动刷新时活动指示器的动画非常不稳定我不知道我的代码是否有不良行为 tableView refreshControl UI
多列数据转换

我正在从数据源接收数据在将信息发送到 UI 进行显示之前我需要先进行数据透视 I am new to concept of pivoting I am not sure how to go about it 问题有两个部分形成标题旋
.NET 中是否有热插拔的参考实现？

我正在寻找在 NET 中完成热交换的良好实现我需要的东西是能够将 DLL 部署到特定文件夹中并让正在运行的系统拾取它们让正在运行的系统更新容器中的相应引用我一直在研究MEF及其目录加载机制但它似乎非常不可靠也许有人有替代的实现
相当于 conda 的 apt-get install python3.6-dev

如何使用开发版本的python创建conda环境或者当我创建一个时它是否已经包含所有必要的扩展 conda create n py36 python 3 6 conda search python最高版本为 3 6 5 因此我认为只能通过
Bootstrap Sass Rails 4 自定义样式

我正在尝试使用 bootstrap 自定义 Rails 应用程序的样式变量较少可用的here http getbootstrap com customize 我正在使用引导 Sass https github com twbs bootst
如何在 numpy 中进行分散/聚集操作

可以说我有数组 a array 1 2 3 4 5 indices array 1 1 1 1 我执行操作 a indices 1 结果是 array 1 3 3 4 5 换句话说重复项indices被忽略如果我希望重复项不被忽略结果
如何在 Swift 中将 UInt8 字节数组转换为字符串

我在转换时遇到问题UInt8swift 中的字节数组到字符串我已经搜索并找到了一个简单的解决方案 String stringWithBytes buff encoding NSUTF8StringEncoding 但它显示错误String
IllegalArgumentException：不支持的 ABI：Android 5.0 上的 VMRuntime.getInstructionSet() 中为 null

在我们最近更新后在 Google Play Console 上看到我们 Unity 制作的游戏发生崩溃超过 99 的情况发生在 Android 5 0 上我猜这与 WebView 有关并看到了这个相关帖子 https bugs ch
尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列

这就是我的数据框的样子第一列是一个整数第二列是 512 个整数的单个列表 IndexID Ids 1899317 0 47715 1757 9 38994 230 12 241 12228 22861131 0 48156 154 63

尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列

Purpose

尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列 的相关文章

随机推荐

热门标签

尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列的相关文章