使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件

2023-11-24

我正在尝试使用 AWS Lambda 在 S3 中加载、处理和写入 Parquet 文件。我的测试/部署过程是：

https://github.com/lambci/docker-lambda作为模拟 Amazon 环境的容器，因为需要安装本机库（numpy 等）。
此过程生成 zip 文件：http://docs.aws.amazon.com/lambda/latest/dg/with-s3-example-deployment-pkg.html#with-s3-example-deployment-pkg-python
将测试 python 函数添加到 zip 中，将其发送到 S3，更新 lambda 并测试它

似乎有两种可能的方法，两者都在 docker 容器本地工作:

fastparquet with s3fs：不幸的是，解压后的包大小超过 256MB，因此我无法用它更新 Lambda 代码。
pyarrow 与 s3fs：我跟随https://github.com/apache/arrow/pull/916当使用 lambda 函数执行时，我得到：
- 如果我在 URI 中添加 S3 或 S3N 前缀（如代码示例中所示）：在 Lambda 环境中OSError: Passed non-file path: s3://mybucket/path/to/myfile在 pyarrow/parquet.py，第 848 行。在本地我得到IndexError: list index out of range在 pyarrow/parquet.py，第 714 行
- 如果我不使用 S3 或 S3N 作为 URI 前缀：它在本地工作（我可以读取镶木地板数据）。在 Lambda 环境中，我得到同样的结果OSError: Passed non-file path: s3://mybucket/path/to/myfile在 pyarrow/parquet.py，第 848 行。

我的问题是：

为什么我在 docker 容器中得到的结果与在 Lambda 环境中得到的结果不同？
给出 URI 的正确方法是什么？
有没有一种公认的方法可以通过 AWS Lambda 读取 S3 中的 Parquet 文件？

Thanks!

AWS有一个项目（AWS 数据管理员），使其具有完整的 Lambda 层支持。

在文档中有一个一步步去做吧。

代码示例：

import awswrangler as wr

# Write
wr.s3.to_parquet(
    dataframe=df,
    path="s3://...",
    dataset=True,
    database="my_database",  # Optional, only with you want it available on Athena/Glue Catalog
    table="my_table",
    partition_cols=["PARTITION_COL_NAME"])

# READ
df = wr.s3.read_parquet(path="s3://...")

参考

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazons3

awslambda

parquet

pyarrow

使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
使用 CognitoIdentityServiceProvider 的 adminCreateUser 方法的 AWS Lambda 函数突然失败

在过去的几天里我一直在使用 AWS Lambda 函数测试特定流程并且在 Cognito 用户池中预注册后触发的 lambda 函数工作正常并很好地返回回调函数但从昨天开始我就看到了以下错误 ntime node modules aw
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d

随机推荐

如何将拖放事件侦听器附加到 React 组件

我正在构建一个允许将本地文件拖放到 div 上的组件然后输出有关已删除文件的信息我的问题是我不知道如何正确附加事件监听器drop and dragover创建我的组件时我的应用程序组件是我所有逻辑所在的位置放置和拖动的处理程序我创
原则 2 - 使用数据库中的视图生成实体

是否可以使用 Doctrine 2 从数据库生成视图我解释我的数据库包含一些我想要使用的视图但我不知道如何生成这些视图就我而言我有两个表和一个视图该视图在每个表中选择几列我只想将此视图放在项目的文件夹 Entity 中 Dat
使用 Google Compute Engine 上的应用程序默认凭据访问 Sheets API

ADC 应用程序默认凭据工作流程是否仅支持 Google Cloud API 例如支持 Google Cloud Storage API 但不支持 Google Sheet API 我指的是google auth 的默认方法不必在代码
绑定参数在 SQLite3 中如何工作（用最少的示例）？

有人建议在 SQLite 中使用参数绑定来加速重复查询但是如果我有多个绑定参数它就不起作用我没有看到我的错误所有 SQLite 函数都返回 SQLITE OK 下面我写了一个最小的例子它创建一个表创建三个条目然后查询两次
如何调用 Oracle PL/SQL 对象超级方法

我想调用一个重写的 PL SQL 方法这是一个例子 super class create or replace type test as object n number member procedure proc SELF in out
从特定列中选择值并跳过 R 中的 NA 值

我正在处理癌症登记数据在以下数据示例 ex data 中变量id and 诊断 yr代表癌症诊断的 ID 和年份列x 2005 to x 2010 and y 2005 to y 2010分别代表每年 2005年至2010年的x和y
如何从 log4j 附加程序中排除包

我有配置文件 log4j properties 请参阅下面的包和最后的问题 com bitguiders package1 com bitguiders package2 com bitguiders package3 com bitgui
分配给事件的 lambda 是否会阻止所属对象的垃圾回收？

假设您有一个具有事件属性的类如果您在本地上下文中实例化此类而没有外部引用则为事件分配 lambda 表达式是否会阻止该实例被垃圾回收 var o new MyClass o MyClassEvent args gt Will o be
在 Angular 6 中使用 HTML 锚链接片段

我正在处理一个 Angular 6 项目其中我已禁用删除了 hash location strategy 该策略从 URL 中删除了由于此更改链接具有 li a Contact Settings a ul class child l
从返回引用的函数提前返回的最佳方法

假设我们有一个以下形式的函数 const SomeObject SomeScope ReturnOurObject if SomeCondition return early return return ourObject 显然上面的代码有
是否需要在对象前面使用＆符号？

由于现在默认情况下对象是通过引用传递的因此是否可能存在一些特殊情况 obj有道理吗对象使用不同的引用机制 object更多的是参考中的参考你无法真正比较它们看对象和引用 PHP 引用是一个别名它允许两个不同的变量写入相同的值从
Docker 不会创建新容器，而是重新创建正在运行的容器

所以我有以下问题我正在使用 docker compose 来构建和启动两个容器我使用不同的 docker compose yml 文件图像和容器名称不同多次执行此操作并且工作正常并且三个容器并行运行唯一的区别是一个容器公开特定
如何从 Java EE 应用程序提供套接字服务？

我们希望在 Java EE 应用服务器 JBoss 4 2 3 中处理一些客户端请求我读到Java EE 规范不允许从企业 bean 打开套接字但该规范没有提出其他选择具体来说企业 Bean 不应侦听接受来自网络套接字的连接或多
iOS9 不受信任的企业开发人员，没有信任选项

这不是重复的不受信任的应用程序开发人员从 iOS9 开始就没有信任企业版本的选项了有人找到解决方法吗在 iOS 9 1 及更低版本中请转至设置常规配置文件点击你的Profile 轻按Trust button 在 iOS 9
Powermock - 模拟超级方法调用

这是我的代码 import org junit Test import org junit runner RunWith import org powermock modules junit4 PowerMockRunner import
有没有办法使用 Android 2.1/2.2 中的功能，同时将 minSDK 版本保持为 3？

我有一个项目仅使用 Android 1 5 进行编程但随着其他手机的激增以及 Android 2 2 中的一些很酷的功能我们希望在不失去对 1 5 的支持或创建新的代码库的情况下支持这些功能可以用Android SDK来做吗我确实有
为什么 Phantom、Casper 和 Meteor 需要自己的可执行文件？

Phantom and Meteor are built off Node and Casper is built off Phantom Why do they each need their own separate executabl
ViewPager中使用FragmentPagerAdapter的Fragment第二次查看时为空白

我有一个片段界面底部带有选项卡可在主视图中打开不同的片段我有一个特定的片段它是一个项目列表如果用户选择此列表中的一个项目则会打开另一个片段其中包含一个视图页面该视图页面在前一个片段的列表中的所有项目之间水平滚动这很好用 v
如何扩大 UIButton 的 hotTest 区域而不挤压其背景图像？

我已经设置了UIButton的背景图片并在上面加上标题我用过setBackgroundImage方法不setImage 现在我想扩展一个的 hitTest 区域UIButton不挤压它的背景图像我怎样才能做到这一点更简洁的方法是重写
使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件

我正在尝试使用 AWS Lambda 在 S3 中加载处理和写入 Parquet 文件我的测试部署过程是 https github com lambci docker lambda作为模拟 Amazon 环境的容器因为需要安装本机库

使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件

使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件 的相关文章

随机推荐

热门标签

使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件的相关文章