如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件

2023-12-28

我正在寻找使用 python 从 s3 的多个分区目录读取数据的方法。

data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet

pyarrow ParquetDataset 模块具有从分区读取的能力。所以我尝试了以下代码：

>>> import pandas as pd
>>> import pyarrow.parquet as pq
>>> import s3fs
>>> a = "s3://my_bucker/path/to/data_folder/"
>>> dataset = pq.ParquetDataset(a)

它引发了以下错误：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 502, in __init__
    self.metadata_path) = _make_manifest(path_or_paths, self.fs)
  File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 601, in _make_manifest
    .format(path))
OSError: Passed non-file path: s3://my_bucker/path/to/data_folder/

根据 pyarrow 的文档，我尝试使用 s3fs 作为文件系统，即：

>>> dataset = pq.ParquetDataset(a,filesystem=s3fs)

这会引发以下错误：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 502, in __init__
    self.metadata_path) = _make_manifest(path_or_paths, self.fs)
  File "/home/my_username/anaconda3/lib/python3.6/site-packages/pyarrow/parquet.py", line 583, in _make_manifest
    if is_string(path_or_paths) and fs.isdir(path_or_paths):
AttributeError: module 's3fs' has no attribute 'isdir'

我仅限于使用 ECS 集群，因此Spark/pyspark 不是一个选项.

有没有一种方法可以让我们轻松地在 python 中从 s3 中的此类分区目录读取镶木地板文件？我觉得列出所有目录然后阅读并不是一个好的做法，如本中所建议的link https://stackoverflow.com/questions/45043554/how-to-read-a-list-of-parquet-files-from-s3-as-a-pandas-dataframe-using-pyarrow。我需要将读取的数据转换为 pandas 数据帧以进行进一步处理，因此更喜欢与 fastparquet 或 pyarrow 相关的选项。我也对 python 中的其他选项持开放态度。

我设法让它与最新版本的 fastparquet 和 s3fs 一起工作。下面是相同的代码：

import s3fs
import fastparquet as fp
s3 = s3fs.S3FileSystem()
fs = s3fs.core.S3FileSystem()

#mybucket/data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet 
s3_path = "mybucket/data_folder/*/*/*.parquet"
all_paths_from_s3 = fs.glob(path=s3_path)

myopen = s3.open
#use s3fs as the filesystem
fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen)
#convert to pandas dataframe
df = fp_obj.to_pandas()

感谢马丁通过我们的网站为我指明了正确的方向对话 https://stackoverflow.com/questions/44301238/error-with-snappy-while-importing-fastparquet-in-python/44310390?noredirect=1#comment77258713_44310390

NB：这会比使用 pyarrow 慢，基于基准 http://wesmckinney.com/blog/python-parquet-update/。一旦 s3fs 支持在 pyarrow 中实现，我将更新我的答案ARROW-1213 https://issues.apache.org/jira/browse/ARROW-1213

我使用 pyarrow 和作为 glob 发送到 fastparquet 的文件列表对各个迭代进行了快速基准测试。 fastparquet 使用 s3fs 比 pyarrow + 我的 hackish 代码更快。但我认为 pyarrow +s3fs 一旦实施将会更快。

代码和基准如下：

>>> def test_pq():
...     for current_file in list_parquet_files:
...         f = fs.open(current_file)
...         df = pq.read_table(f).to_pandas()
...         # following code is to extract the serial_number & cur_date values so that we can add them to the dataframe
...         #probably not the best way to split :)
...         elements_list=current_file.split('/')
...         for item in elements_list:
...             if item.find(date_partition) != -1:
...                 current_date = item.split('=')[1]
...             elif item.find(dma_partition) != -1:
...                 current_dma = item.split('=')[1]
...         df['serial_number'] = current_dma
...         df['cur_date'] = current_date
...         list_.append(df)
...     frame = pd.concat(list_)
...
>>> timeit.timeit('test_pq()',number =10,globals=globals())
12.078817503992468

>>> def test_fp():
...     fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen)
...     df = fp_obj.to_pandas()

>>> timeit.timeit('test_fp()',number =10,globals=globals())
2.961556333000317

2019年更新

毕竟 PR 等问题箭2038 https://issues.apache.org/jira/browse/ARROW-2038 & 快速镶木地板 - PR#182 https://github.com/dask/fastparquet/issues/182已解决。

使用 Pyarrow 读取镶木地板文件

# pip install pyarrow
# pip install s3fs

>>> import s3fs
>>> import pyarrow.parquet as pq
>>> fs = s3fs.S3FileSystem()

>>> bucket = 'your-bucket-name'
>>> path = 'directory_name' #if its a directory omit the traling /
>>> bucket_uri = f's3://{bucket}/{path}'
's3://your-bucket-name/directory_name'

>>> dataset = pq.ParquetDataset(bucket_uri, filesystem=fs)
>>> table = dataset.read()
>>> df = table.to_pandas()

使用 Fast parquet 读取 parquet 文件

# pip install s3fs
# pip install fastparquet

>>> import s3fs
>>> import fastparquet as fp

>>> bucket = 'your-bucket-name'
>>> path = 'directory_name'
>>> root_dir_path = f'{bucket}/{path}'
# the first two wild card represents the 1st,2nd column partitions columns of your data & so forth
>>> s3_path = f"{root_dir_path}/*/*/*.parquet"
>>> all_paths_from_s3 = fs.glob(path=s3_path)

>>> fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen, root=root_dir_path)
>>> df = fp_obj.to_pandas()

快速基准测试

这可能不是对其进行基准测试的最佳方法。请阅读博客文章 http://wesmckinney.com/blog/python-parquet-update/为通过基准

#pyarrow
>>> import timeit
>>> def test_pq():
...     dataset = pq.ParquetDataset(bucket_uri, filesystem=fs)
...     table = dataset.read()
...     df = table.to_pandas()
...
>>> timeit.timeit('test_pq()',number =10,globals=globals())
1.2677053569998407

#fastparquet
>>> def test_fp():
...     fp_obj = fp.ParquetFile(all_paths_from_s3,open_with=myopen, root=root_dir_path)
...     df = fp_obj.to_pandas()

>>> timeit.timeit('test_fp()',number =10,globals=globals())
2.931876824000028

关于 Pyarrow 的进一步阅读speed http://wesmckinney.com/blog/python-parquet-update/

参考：

快速镶木地板 http://fastparquet.readthedocs.io/en/latest/filesystems.html
s3fs http://s3fs.readthedocs.io/en/latest/index.html
pyarrow https://arrow.apache.org/docs/python/
pyarrow箭头代码基于讨论 https://github.com/apache/arrow/pull/916#issuecomment-337619158还有文档
基于讨论的 fastparquet 代码PR-182 https://github.com/apache/arrow/pull/916#issuecomment-337619158 , PR-182 https://github.com/dask/fastparquet/issues/182还有文档

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件的相关文章

最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
使用 python 中的 java 库

我有一个 python 应用程序和 java 应用程序 python 应用程序为 java 应用程序生成输入并在命令行上调用它我确信一定有一个更优雅的解决方案就像使用 JNI 从 Java 调用 C 代码一样有什么指点吗仅供参考我
指定的可执行文件不是该操作系统平台的有效应用程序。

我不断收到错误消息System ComponentModel Win32Exception The specified executable is not a valid application for this OS platform 当
使用 Tkinter 进行多线程 Python

我用这些函数在画布上画小圆圈这是绘制圆圈的函数 class Fourmis def init self can posx posy name radius self can can self largeur can int self ca
Conda 无法在 Powershell 中激活

我已经在我的 Windows 10 笔记本电脑上安装了 anaconda 我正在尝试激活名为的Python环境pyenv 首先我检查conda env list在我的笔记本电脑中这是 powershell 上的输出 PS C Users
如何在 Python 中获得两个变量的逻辑异或？

你如何获得逻辑异或 http en wikipedia org wiki Exclusive orPython 中的两个变量例如我有两个希望是字符串的变量我想测试其中只有一个包含 True 值不是 None 或空字符串 str1 r
属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

我有一个这样的语料库 X train this is an dummy example in reality this line is very long here is a last text in the training set 和一
Python 包？

好吧我认为无论我做错了什么它可能都是显而易见的但我无法弄清楚我已经阅读并重新阅读了有关包的教程部分我唯一能想到的是这不起作用因为我直接执行它这是目录设置 eulerproject init py euler1 py euler
添加反斜杠而不转义[重复]

这个问题在这里已经有答案了我需要逃离字符串中的字符问题是每当我string string replace 结果是添加额外的反斜杠来转义原始反斜杠如何删除这个多余的反斜杠结果仅显示实际上字符串是 gt gt gt str g
如何从字典列表中查找键的值？

如何从字典列表中获取给定键的值 mylist powerpoint color blue client name Sport Parents Regrouped sort order ascending chart layout 1 cha
如何在Redis中从hmset()切换到hset()？

我收到弃用警告即 Redis hmset 已弃用请改用 Redis hset 但是 hset 采用第三个参数我不知道是什么name应该是 info users 10 timestamp datetime utcnow strftime
cx_freeze：QODBC 驱动程序未加载

我的 python 应用程序如下所示 test py from PyQt4 import QtCore from PyQt4 import QtGui from PyQt4 import QtSql import sys import at
Python Pandas：将参数传递给 agg() 中的函数

我试图通过使用不同类型的函数和参数值来减少 pandas 数据框中的数据但是我无法更改聚合函数中的默认参数这是一个例子 gt gt gt df pd DataFrame x 1 np nan 2 1 y a a b b gt gt g
如何检查两个数据集的匹配列之间的相关性？

如果我们有数据集 import pandas as pd a pd DataFrame A 34 12 78 84 26 B 54 87 35 25 82 C 56 78 0 14 13 D 0 23 72 56 14 E 78 12 31
将 numpy 记录数组转换为字典列表的有效方法

如何转换下面的 numpy 记录数组 recs Bill 31 260 0 Fred 15 145 0 r rec fromrecords recs names name age weight formats S30 i2 f4 到字典列表
在 Mac OS x 10.7.5 中运行 Scrapy 所需的文件，使用 Python 2.7.3 IEPD_free（32 位）

我是第一次测试 scrapy 使用命令安装后 sudo easy install U scrapy 一切似乎都运行正常但是当我运行时 scrapy startproject tutorial 我得到以下信息 luismacbookpro
为什么 Python 布尔值占用超过一个字节？

显然 Python 中整数占用 24 个字节我可以理解它这样做是因为代表无限数字的额外花哨然而布尔数据类型看起来也花费了高达 24 个字节尽管它只能表示两个可能值之一为什么除了 1 位表示之外还可能需要存储哪些额外数据Tru
Django ConnectionAbortedError：[WinError 10053]已建立的连接被主机中的软件中止

我将 django 与 postgresql 一起使用每当我尝试保存或删除任何内容时都会发生此错误 Traceback most recent call last File c program files x86 python35 32
Twitter 不再使用请求库 python

我有一个 python 函数它使用 requests 库和 BeautifulSoup 来抓取特定用户的推文 import requests from bs4 import BeautifulSoup contents requests
Python：ConfigParser.NoSectionError：没有部分：“TestInformation”

我使用上面的代码收到 ConfigParser NoSectionError No section TestInformation 错误 def LoadTestInformation self config ConfigParser Co

随机推荐

在 Chapel 文件中包含第二个源文件

在 C 中当我需要 actions cpp 中的类时classes cpp我包括标题例如 include
如何读取和遍历 inode

我已经在 EXT2 文件系统中打开了超级块和组描述符但我不知道如何读取根目录或其中的文件这是我得到的一些内容 fd open dev sdb2 O RDONLY lseek fd SuperSize SEEK SET read fd s
创建一个可以在 React 上拖放列和行的表格

我想创建一个可以在 React 上拖放列和行的表格我看过其他解决方案例如反应美丽 dnd https github com atlassian react beautiful dnd 表格拖动器 https github com sin
如何从非组件辅助函数访问 redux 的存储？

我有一个辅助函数当我想从 Redux 存储中删除某些内容时我会调用它但是我需要能够访问函数内的当前存储以确定下一步要做什么这就是我想做的 export function deleteDocument id this props
如何制作自己的 P2P 软件？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我怎样才能制作自己的napster 这些 p2p 程序使用哪个库我不太熟悉套接字编程的概念你能用Qt4制作p2p程序吗从 Napst
Instagram 风格的多媒体列表视图

我尝试过搜索但没有找到明确的答案我想知道创建一个列表视图的最佳方法该列表视图可以使用媒体控制器显示音频视频视图项目用户可以为每个项目播放暂停等我认为实现纹理视图将是前进的方向我相信视频视图与滚动视图不能很好地配合但我不确定从
如何在 Json.NET 中使用 JsonSerializerSettings 在属性中指定时禁用 TypeNameHandling？

有时我需要抑制输出 type 即使由 Json NET 指定属性JsonPropertyAttribute ItemTypeNameHandling https www newtonsoft com json help html P New
检查字符串是否仅包含 utf8 字母

我一直在寻找一种用 Javascript 处理这些东西的方法 PHP 有一个处理 unicode 字符的库称为Unicode 字符属性 http php net manual en regexp reference unicode php
恢复0的SKPhysicsBody仍然会反弹

我正在尝试以恒定速度掉落 SKSpriteNode 并且不会弹跳这是我正在使用的代码 SKSpriteNode floor SKSpriteNode spriteNodeWithColor UIColor clearColor size
slim php框架图片上传放入数据库

我是 slim php 框架的新手我想上传图像并将文件名放入数据库中POST 有人可以给我一些示例代码吗这是路由器 app gt post uploadFile 这将指向下面的函数 function uploadFile if isse
HttpListener 被调用两次

我正在使用此代码来实现 Http Server public Server httpListener new HttpListener httpListener Prefixes Add Server UriAddress StartSer
ASP .Net：AspNetSqlMembershipProvider“唯一电子邮件”问题

我在 ASP Net 4 Web 应用程序项目中使用 AspNetSqlMembershipProvider 我已在 web config 文件中将用户地址配置为唯一 requiresUniqueEmail true 如下所示
linux/list.h 中container_of 宏背后的基本原理

在linux内核列表中的实现 include linux list h 第一行粘贴在下面背后的基本原理是什么container of macro const typeof type 0 gt member mptr ptr 在我的示例代
mysql交叉连接，但没有重复对？

假设我的表中有以下行表行 id 63 64 65 66 67 68 如果我运行以下查询我会得到 30 行 SELECT r1 id r2 id FROM rows AS r1 CROSS JOIN rows AS r2 WHERE r1
使用 iTextSharp 库提取 pdf 文件中包含的签名图像

我有一个签名的 PDF 文件通过这个使用 iTextSharp 库的函数我找到了证书 p7m 签名 private void GetSignature string FileName AcroFields acroFields new
Form::file：验证错误和/或更新后如何使用 Input::old 重新填充？

在我的 PhotosController 中我尝试修改编辑操作以便它显示 Form file 输入字段中的现有值并且如果验证失败它会重新填充该字段 if validation gt passes saves the image o
Python Pandas 多列成对频率表

初学者熊猫问题在这里如何为所有列创建交叉频率计数表我想使用输出来制作一个 Seaborn 热图显示每对列之间的计数我有一个数据框使用 pyspark 从 hdfs 中提取其中包含约 70 个独特的列和大约 600K 行所需输出
处理 cython 中的默认参数

我正在使用 cython 包装一些 C 代码并且我不确定处理具有默认值的参数的最佳方法是什么在我的 C 代码中我的函数的参数具有默认值我想以这样的方式包装它们如果未给出参数则使用这些默认值有没有办法做到这一点此时我能看到提
具有可选参数的 Java 构造函数/方法？ [复制]

这个问题在这里已经有答案了可能的重复 Java可选参数 https stackoverflow com questions 965690 java optional parameters 我知道在 PHP 中如果你想调用一个参数较少的函
如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件

我正在寻找使用 python 从 s3 的多个分区目录读取数据的方法 data folder serial number 1 cur date 20 12 2012 abcdsd0324324 snappy parquet data fol

如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件

如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件 的相关文章

随机推荐

热门标签

如何在 python 中使用 pyarrow 从 S3 读取分区的 parquet 文件的相关文章