如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

2024-03-17

我将 pandas 中的数据帧保存在 HDF5 文件中：

import numpy as np
import pandas as pd
np.random.seed(1)
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print('frame: {0}'.format(frame))
store = pd.HDFStore('file.h5')
store['df'] =  frame
store.close()

框架如下：

frame:                b         d         e
Utah              1.624345 -0.611756 -0.528172
Ohio             -1.072969  0.865408 -2.301539
Texas             1.744812 -0.761207  0.319039
Oregon           -0.249370  1.462108 -2.060141

我正在尝试将其加载到 R 中：

#source("http://bioconductor.org/biocLite.R")
#biocLite("rhdf5")    
library(rhdf5)
frame = h5ls("file.h5")    
frame

然而，一旦加载到 R 中，它看起来如下：

> frame
  group          name       otype dclass   dim
0     /            df   H5I_GROUP             
1   /df         axis0 H5I_DATASET STRING     3
2   /df         axis1 H5I_DATASET STRING     4
3   /df  block0_items H5I_DATASET STRING     3
4   /df block0_values H5I_DATASET  FLOAT 3 x 4
>

我也尝试过：

frame2 = h5read("file.h5", '/df')
frame2

但是它返回几个值但没有数据框：

> frame2
$axis0
[1] "b" "d" "e"

$axis1
[1] "Utah"   "Ohio"   "Texas"  "Oregon"

$block0_items
[1] "b" "d" "e"

$block0_values
           [,1]       [,2]       [,3]       [,4]
[1,]  1.6243454 -1.0729686  1.7448118 -0.2493704
[2,] -0.6117564  0.8654076 -0.7612069  1.4621079
[3,] -0.5281718 -2.3015387  0.3190391 -2.0601407

如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

Update这是 pandas 文档中推荐的方法：https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#external-compatibility https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#external-compatibility

From https://github.com/pandas-dev/pandas/issues/9636 https://github.com/pandas-dev/pandas/issues/9636（谢谢约翰·高尔特 https://stackoverflow.com/users/2137255/john-galt向我指出此资源）：

R 的 HDF5 导出示例

import numpy as np
import pandas as pd

np.random.seed(1)
df = pd.DataFrame({"first": np.random.rand(100),
                   "second": np.random.rand(100),
                   "class": np.random.randint(0, 2, (100,))},
                   index=range(100))

print(df.head())

store = pd.HDFStore("transfer.hdf5", "w", complib=str("zlib"), complevel=5)
store.put("dataframe", df, data_columns=df.columns)
store.close()

Output:

   class     first    second
0      0  0.417022  0.326645
1      0  0.720324  0.527058
2      1  0.000114  0.885942
3      1  0.302333  0.357270
4      1  0.146756  0.908535

In R:

# Load values and column names for all datasets from corresponding nodes and
# insert them into one data.frame object.

library(rhdf5)

loadhdf5data <- function(h5File) {

listing <- h5ls(h5File)
# Find all data nodes, values are stored in *_values and corresponding column
# titles in *_items
data_nodes <- grep("_values", listing$name)
name_nodes <- grep("_items", listing$name)

data_paths = paste(listing$group[data_nodes], listing$name[data_nodes], sep = "/")
name_paths = paste(listing$group[name_nodes], listing$name[name_nodes], sep = "/")

columns = list()
for (idx in seq(data_paths)) {
  data <- data.frame(t(h5read(h5File, data_paths[idx])))
  names <- t(h5read(h5File, name_paths[idx]))
  entry <- data.frame(data)
  colnames(entry) <- names
  columns <- append(columns, entry)
}

data <- data.frame(columns)

return(data)
}

现在您可以导入 DataFrame：

> data = loadhdf5data("transfer.hdf5")
> head(data)
         first    second class
1 0.4170220047 0.3266449     0
2 0.7203244934 0.5270581     0
3 0.0001143748 0.8859421     1
4 0.3023325726 0.3572698     1
5 0.1467558908 0.9085352     1
6 0.0923385948 0.6233601     1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

pandas

DataFrame

HDF5

如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？的相关文章

python：numpy 运行脚本两次

当我将 numpy 导入到 python 脚本中时该脚本会执行两次有人可以告诉我如何阻止这种情况因为我的脚本中的所有内容都需要两倍的时间这是一个例子 usr bin python2 from numpy import print t
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
如何使用Peewee查询多个相似的数据库？

我遇到了使用 Peewee 查询多个数据库的问题我有 2 个现有的 mysql 数据库让我们将它们命名为 A 和 B 结构相似因为它是两个 Bugzilla 数据库我使用 Pwiz 生成模型 modelsA py 和 modelsB
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
如何在 Windows 7 中使用 Python 廉价地创建非常大的文件？ [复制]

这个问题在这里已经有答案了可能的重复在Windows系统上快速创建大文件 https stackoverflow com questions 982659 quickly create large file on a windows s
Hoare Partitioning算法讲解

根据许多网站给出的伪代码我写了这个Hoare分区算法它采用一个数组根据给定的主元来分区子数组的开始和结束索引它工作得很好但是有人可以解释一下逻辑它是如何做到这一点的吗这是代码 def hoare arr start end p
内置模块位于哪里？

我尝试查找列出的所有目录sys path但我找不到任何builtins py文件那么它在哪里呢从字面上看该模块内置于 python 解释器中 gt gt gt import builtins gt gt gt builtins
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
用于带有嵌套子图的图的 r 包？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个用于图形网络的 r 包它可以处理嵌套子图 Graphviz 做到了这一点但只提供可
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助

随机推荐

如何在android库gradle项目中包含依赖项？

我正在使用 Android Studio 使用 Gradle 构建一个 android 库项目它有一些本地依赖项 compile project androidlibrary 具有嵌套的附加外部依赖项 compile group com
如何在 xsl:apply-templates 中使用 XSL 变量？

我对 xsl apply templates 有一个相当复杂的调用
PHP 用一个 HTML Break 替换双行 [重复]

这个问题在这里已经有答案了我正在尝试将我的服务器上的所有 n n 替换为 br 标记以便单个 n 不会变成 br Example Hello n nThis is an nexample n nThanks goes to Hello
交换 jQuery 中的两个元素

我正在尝试使用向上和向下箭头交换两个元素 JSFiddle 解决方案会很棒 My HTML div class item div class content Some text div div class move div class mo
如何使用双括号初始化 Map of Map

我确实明白双括号初始化有其自己的隐藏成本仍然有可能的初始化方法Map
如何判断库是使用 C++11 编译的

如何判断某个 C 库是否已使用链接 c 11 标准 elf 二进制文件默认包含所使用的编译器版本的签名现在关于使用的编译器标志如果 frecord gcc switches在编译时使用然后您可以在ELF可执行文件中找到签名 g f
如何使用单点触摸更改 UISlider 值？

我正在开发我的第一个 iOS 应用程序其中包含UISlider 我知道当UISlider被拖拽但对于我的应用程序我需要通过一次触摸获取滑块的值即如果我触摸某处UISlider a UILabel应该显示其正确的值这样子可以吗任何
选择源代码控制系统：VSS 之后的逻辑下一步

过去几个月我一直在使用 Git 并且很喜欢它我研究了如何在企业环境中托管它考虑到一个 10 人团队使用 Visual SourceSafe 使用 Coldfusion Powerbuilder PHP 和一些 NET 进行编程令我惊讶
如何使用 Apache POI 在 Word .docx 文件中正确生成 RSID 属性？

我一直在使用 Apache POI 来操作 Microsoft Word docx 文件即打开最初在 Microsoft Word 中创建的文档对其进行修改然后将其保存到新文档中我注意到 Apache POI 创建的新段落缺少修订保
CVS：列出标签（或日期）之间更改的所有文件

有没有办法列出CVS中两个标签之间发生更改的所有文件每次我们发布版本时我们都会向该版本中的所有文件应用一个标签我想找到版本之间更改的所有文件如果我能找到两个日期之间更改的所有文件它也会起作用我想这个命令会有帮助 cvs diff
使用项目反应器 mergeWith() 运算符来实现“if/elseif/else”分支逻辑

我正在尝试使用项目反应堆 mergeWith运算符以实现if elseif else分支逻辑如下所述 RxJS If Else 运算符在哪里 https rangle io blog rxjs where is the if else op
来自两个派生类的多重继承

我有一个充当接口的抽象基类我有两个派生类集它们实现了抽象类的一半一个集合定义与初始化相关的抽象虚拟方法另一个集合定义与实际工作相关的方法然后我有派生类它们使用多重继承来构造完全定义的类并且本身不添加任何内容所
大虾：在PDF中打印unicode字符串

我正在使用 Prawn 在 Rails 3 应用程序中生成 PDF 是否可以像在 HTML 视图中一样将 Unicode 字符串打印到 PDF 中例如 in show html erb结果字形同时 pdf text raw unicod
加密且安全的 Docker 容器

我们都知道无法开源并自由分发软件的情况而我就处于其中一种情况我有一个应用程序它由许多二进制文件从 C 源代码编译和将其全部包装到系统中的 Python 代码组成该应用程序曾经作为云解决方案工作因此用户可以通过网络访问应用程序功
使用 ws4py 创建自己的应用程序

我使用 ws4py 创建了一个 Web 服务器套接字它使用了cherrypy 当我使用连接到服务器时ip port它连接完美并且能够通过多个浏览器聊天但是当我尝试连接时ip port ws它也有效但是在我不使用连接后ws 我无法握
jQuery 中的多个选择器

我正在尝试运行这段代码 input value OK value Recrutar value Criar id attack name btn click 因此如您所见我正在尝试选择一个值等于 OK 或 Recrutar 或 Cria
为什么IntelliJ Idea找不到GO SDK的位置？

我下载了go1 4 darwin amd64 osx10 8 tar gz https golang org dl 并将其解压到我的本地目录中基于什么安装到自定义位置 https golang org doc install说我在环境变量
jQuery - 专注于 TR

好的所以我正在制作一个插件允许在我的网站中内联编辑表格到目前为止进展顺利我已经完成了大部分工作但我似乎无法正确地将焦点移出表格因此如果有人完成编辑并开始编辑新行或只是单击该行之外的内容则应该保存并恢复正常但是如果我在行上
Android NumberPicker 隐藏递增和递减按钮

我正在使用一个数字选择器 http developer android com reference android widget NumberPicker html并且目标是 API 11 及更高版本 3 0 及更高版本因此我使用受支持的
如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

我将 pandas 中的数据帧保存在 HDF5 文件中 import numpy as np import pandas as pd np random seed 1 frame pd DataFrame np random randn 4

如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？

如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？ 的相关文章

随机推荐

热门标签

如何在 R 中加载以 HDF5 文件形式保存在 pandas 中的数据帧？的相关文章