如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？

2023-12-09

我正在尝试使用 awswrangler 将存储在 S3 中的任意大的 parquet 文件读入 pandas 数据帧，但将我的查询限制为第一个N由于文件的大小（以及我较差的带宽）而导致的行。

我不知道如何做到这一点，或者是否可以在不搬迁的情况下实现。

我可以使用chunked=INTEGER并在读取第一个块后中止，如果是这样怎么办？

我使用 pyarrow 遇到了这个不完整的解决方案（最后 N 行；）） -读取 S3 parquet 表的最后 N 行- 但是基于时间的过滤器对我来说并不理想，并且接受的解决方案甚至没有到达故事的结尾（尽管有帮助）。

或者是否有另一种方法无需先下载文件（我现在可能已经完成了）？

Thanks!

您可以使用 awswrangler 来做到这一点S3选择。例如：

import awswrangler as wr

df = wr.s3.select_query(
        sql="SELECT * FROM s3object s limit 5",
        path="s3://amazon-reviews-pds/parquet/product_category=Gift_Card/part-00000-495c48e6-96d6-4650-aa65-3c36a3516ddd.c000.snappy.parquet",
        input_serialization="Parquet",
        input_serialization_params={},
        use_threads=True,
)

只会从 S3 对象返回 5 行。

这对于其他读取方法来说是不可能的，因为在读取之前必须将整个对象拉到本地。使用 S3 select，过滤是在服务器端完成的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

DataFrame

amazons3

pyarrow

awsdatawrangler

如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？的相关文章

Pandas 和 Matplotlib - 需要按国家/地区划分的疫苗接种百分比以及使用下拉菜单的特定国家/地区首选疫苗的条形图

这是数据集 location date vaccine total vaccinations 0 Austria 2021 01 08 Johnson Johnson 0 1 Austria 2021 01 08 Moderna 0 2 A
使用 Python 从 AWS S3 下载文件

我尝试使用以下代码将文件从 Amazon S3 存储桶下载到本地但收到错误消息无法找到凭证下面给出的是我编写的代码 from boto3 session import Session import boto3 ACCESS KEY A
AWS CLI s3 复制失败并出现 403 错误，尝试管理用户上传的对象

尝试将文件从 S3 存储桶复制到我的本地计算机 aws s3 cp s3 my bucket name audio 0b7ea3d0 13ab 4c7c ac66 1bec2e572c14 wav fatal error An error
垂直合并2个数据帧[重复]

这个问题在这里已经有答案了我有 2 个数据框每个数据框有 2 列相同的列名称我想垂直合并它们以最终得到一个新的数据框做的时候 newdf df merge df1 how left on Col1 Col2 新的 df 仅包含以下
查找两个 Pandas 数据框中的公共行（交集）

假设我有两个这种格式的数据框称它们为df1 and df2 user id business id rating rLtl8ZkDX5vH5nAx9C3q5Q eIxSLxzIlfExI6vgAbn2JA 4 C6IOtaaYdLIT5f
根据特定行中的值对列重新排序。

我在数据框中有以下数据 aa bb cc 1 3 4 5 2 5 4 3 3 7 8 6 100 33 63 55 我需要根据最后一行中的值对列重新排序这种转变的结果将是 bb cc aa 1 4 5 3 2 4 3 5 3 8 6 7
根据标签位置计算 Pandas DataFrame 的索引

我正在尝试计算标签的索引Pandas https pandas pydata org DataFrame在每一列中基本上我有以下内容DataFrame d col1 label1 label2 label3 col2 label2 lab
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
R - 通过合并和超过 2 个后缀进行减少（或者：如何合并多个数据帧并跟踪列）

我正在尝试基于 2 列合并 4 个数据帧但要跟踪列源自哪个数据帧我在跟踪列时遇到问题参见 dput dfs 帖子末尾 df example df1 Name Color Freq banana yellow 3 apple red 1
为什么我无法在 Python Worksheet 中导入 Pandas？

我在做时遇到这个错误import pandas as pd 回溯最近一次调用文件 udf code py 第 10 行位于 main ModuleNotFoundError 函数中没有名为 pyarrow 的模块 PYTHON WOR
Pandas：按日历周分组，然后绘制真实日期时间的分组条形图

EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案结果将如下所示您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
Amazon S3：奇怪的错误 - “有时”签名不匹配，有时确实如此

我正在为销售人员开发代码我们正在使用 Appexchange 的 Force com for Amazon Web Services 应用程序该应用程序由亚马逊提供我正在计算机上从 Amazon S3 下载文件有时我会收到下面提到的
R 中具有 p 值的相关矩阵

假设我想要传导相关矩阵 library dplyr data iris iris gt select if is numeric gt cor y iris Petal Width method spearman gt round 2 现在
删除pandas中某个字符串之后的行

我想删除包含字符串 End of the 4th Quarter 的行之后的所有行目前这是第 474 行但它会根据游戏而变化 from bs4 import BeautifulSoup import requests import p
带有非字符串值的 AWS S3 x-amz-meta 错误：InvalidHeader 和 InvalidParameterType

尝试使用node js AWS sdk时s3Client upload带有元数据的可选参数 const AWS require aws sdk const s3Client new AWS S3 params Key key secret
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
使用 Java 从 S3 上的文件在 S3 上创建 zip 文件

我在 S3 上有很多文件需要对其进行压缩然后通过 S3 提供压缩文件目前我将它们从流压缩到本地文件然后再次上传该文件这会占用大量磁盘空间因为每个文件大约有 3 10MB 而且我必须压缩多达 100 000 个文件所以一个 z

随机推荐

如何使用 EF6 Code First 将外键属性公开给具有导航属性的现有实体

我有一个已经与底层数据库一起使用的实体并且它是使用可选实体 1 0 1 的导航属性创建的因此按照默认约定 EF 在数据库中创建了一个可为空的外键列并根据该约定为其指定了带下划线的 MyProp Id 名称现在我希望将该外键公开为
在 bash 脚本中使用 grep 在日志文件上使用 tail -f

我想创建一个脚本来查找正在写入的日志文件中的特定字符串我想获取第一个结果并将其放入变量中以供以后使用这将通过 SSH 连接使用如下所示 ssh email protected bash s lt usr local bin check
默认情况下使用 uuid 时 Cassandra TimeUUID 泛洪文件描述符

我有 Cassandra 模型 import uuid from cassandra cqlengine import columns from cassandra cqlengine models import Model class M
如何使用 24 位位图的 ScanLine 属性？

如何使用ScanLine24 位位图像素操作的属性为什么我应该更喜欢使用它而不是经常使用Pixels财产一简介在这篇文章中我将尝试解释ScanLine属性用法仅适用于 24 位位图像素格式以及您是否确实需要使用它首先来看看是什么让
带有 CUDA 的 Pytorch 在 Ubuntu 上本地安装失败

我正在尝试使用 CUDA 安装 PyTorch 我按照中提到的说明使用 conda 安装进行操作https pytorch org get started locally conda 安装 pytorch torchvision tor
在 Ubuntu 上安装 Mono-Complete 4.8

我正在尝试安装Mono 4 8 in a Docker图片但我下载失败这是 dockerfile RUN apt get update apt get install y curl rm rf var lib apt lists apt
如何附加到 Azure 存储文件共享中的文件？

我想将条目写入存储在 Azure 文件存储中的日志文件我目前有这个 var log My log entry var client storageAccount CreateCloudFileClient var share client
如何在 MongoDB shell 中创建可尾游标？

我想直接在 MongoDB 中为上限集合创建一个无限处理循环但我找不到如何在 MongoDB shell 中获取 tailabale 游标在 Python 中可以使用tailable选项中集合 find 尽管您可以使用 addOpti
Java：读取一个巨大文件的最后n行

我想读取一个非常大的文件的最后 n 行而不使用 Java 将整个文件读入任何缓冲区内存区域我查看了 JDK API 和 Apache Commons I O 但无法找到适合此目的的一个我正在考虑 tail 或 less 在 UNIX
使用for循环匹配具有各种扩展名的文件[重复]

这个问题在这里已经有答案了我正在尝试匹配并循环扩展名为 txt h py 的文件在特定文件夹 arg 中这是我所做的 for file in arg txt h py do done 然而即使我有这样的文件我也没有得到所有扩展名的
Android-Listview项目滚动时背景颜色变化

My ListView包含两个Textviews 在一行中第一个用于名称第二个用于结果我需要更改结果的背景颜色TextView根据结果就像如果通过那么结果TextView结果失败时颜色将为绿色TextView颜色将是红色我有十行L
NSJSONSerialization + AFNetworking 出现无法识别的选择器错误

Update 我刚刚使用以下命令测试了从服务器返回的 JSON 格式JSONlint没关系我在 AFNetworking 调用返回 JSON 数据的 php 脚本时遇到 NSJSONSerialization 异常我在这里查看了具有相同
复制时可执行文件以某种方式损坏

我正在使用Qt的QNetworkAccessManager从一个地方当前是本地机器但将来它将是一个HTTP服务器下载一个文件并将其临时存储在TEMP文件中 linux ubuntu 我发现的问题是该文件这是一个可执行文件在此过程中
PHP 获取目录中图像的尺寸

我有大量照片需要整理我需要知道每张照片的尺寸才能知道否则需要重新调整大小作为一名程序员我相信必须有一种更快的方法来做到这一点我已经走了很远了以下代码读取目录和所有子目录但当我尝试提取尺寸时循环在需要检查的所有图片的 8 处停
如何删除数组中的“空”元素？

我目前正在做一个编码挑战其中指出给定一个单词列表返回可以在美式键盘的一行上使用字母输入的单词如下图所示这是 QWERTY 键盘的图像例子 Input Hello Alaska Dad Peace Output Alaska Da
Rust 打印后从控制台读取输入

我只是在制作一个小程序我试图通过控制台从用户那里获取输入这是我的代码 print Enter values seperated by spaces let mut input String new match io stdin read
通过HTTP适配器传递参数？

我想在用户注册我的混合应用程序基于 IBM Worklight 6 0 后向他她发送一封电子邮件我想将用户的参数电子邮件 ID 传递到托管的 PHP 文件我尝试直接在 URL 中发送邮件如下所示效果如下 http www xx
将 sass 列表传递给具有多个参数的 mixin

我正在尝试创建一个 sass mixin 它将列表中不确定数量的项目作为 mixin 中的参数最终目标是拥有一个 mixin 可用于设置进度条不同值的颜色样式即当进度条具有较低值时为红色这是我为 mixin 想到的 mixin pro
将粘贴表从 sql-server 复制到 Excel 的最快 ADO

我正在将数据表从 sql server 移动到 Excel 中我不需要浏览记录集只是为了获取数据并将其粘贴到工作表中我是否为记录集使用了正确的参数Open方法 Dim recSet As ADODB Recordset Set rec
如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？

我正在尝试使用 awswrangler 将存储在 S3 中的任意大的 parquet 文件读入 pandas 数据帧但将我的查询限制为第一个N由于文件的大小以及我较差的带宽而导致的行我不知道如何做到这一点或者是否可以在不搬迁的情况

如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？

如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？ 的相关文章

随机推荐

热门标签

如何使用 awswrangler 只读取 S3 中存储的 parquet 文件的前几行 N 行？的相关文章