从 PySpark 中的 s3 子目录读取数据

2024-02-18

我想从 S3 存储桶中读取所有 parquet 文件，包括子目录中的所有文件（这些实际上是前缀）。

在 S3 URL 中使用通配符 (*) 仅适用于指定文件夹中的文件。例如，使用此代码将仅读取下面的镶木地板文件target/ folder.

df = spark.read.parquet("s3://bucket/target/*.parquet")
df.show()

假设我的 s3 存储桶中有这样的结构：

"s3://bucket/target/2020/01/01/some-file.parquet"
"s3://bucket/target/2020/01/02/some-file.parquet"

上面的代码会引发异常：

pyspark.sql.utils.AnalysisException: 'Path does not exist: s3://mailswitch-extract-underwr-prod/target/*.parquet;'

如何从 s3 存储桶的子目录中读取所有 parquet 文件？

为了运行我的代码，我将 AWS Glue 2.0 与 Spark 2.4 和 python 3 结合使用。

如果您想读取目标文件夹下的所有 parquet 文件

"s3://bucket/target/2020/01/01/some-file.parquet"
"s3://bucket/target/2020/01/02/some-file.parquet"

你可以做

df = spark.read.parquet("bucket/target/*/*/*/*.parquet")

缺点是您需要知道镶木地板文件的深度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

parquet

awsglue

PySpark

从 PySpark 中的 s3 子目录读取数据的相关文章

Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist

随机推荐

如何正确处理子动作异常

我有一个返回 PartialView 的操作 ChildActionOnly public ActionResult TabInfo int id string tab ViewBag Jobid id ViewBag Tab tab va
如何使用 PostgreSQL 中具有绑定参数的准备好的查询执行“Explain”语句？

我希望能够对具有绑定参数的查询执行解释语句例如 EXPLAIN SELECT FROM metasyntax WHERE id 1 当我尝试执行此操作时出现以下错误 ERROR bind message supplies 0 param
如何将随机的 subreddit 图像发送到我的 Discord.py 机器人？

我正在用异步 python 制作一个不和谐的机器人我希望机器人发布random当我执行命令时的图片前缀示例 meme 这会从 Reddit 子版块中调出一张随机图片在本例中是 Reddit 模因子版块我已经开始实现我想要的但我需
Pycharm 中的 WORKING_DIR_AND_PYTHON_PATHS

我无法理解 Pycharm Python 控制台配置中的 WORKING DIR AND PYTHON PATHS 变量它是什么它如何成为我的项目路径在屏幕截图的最后一行我们可以看到消息sys path extend 在 IPyth
仅支持 TrueType 字体。这不是 TrueType 字体异常

如何设置fontdialog只使用TrueType字体有财产吗 None
Android Studio - 模拟器配置文件和设备配置文件非常不同

我在问另一个问题时遇到了这个问题为什么 Android 模拟器显示的性能配置文件与类似的设备配置文件如此不同具体来说设备调用一个在模拟器上不可见的巨大图形部分这有什么原因吗 Device 26api 48Mb Emulator Pi
如何在不同的设备上得到相同的结果？

我使用 html css javascript 创建了一个表单页面在我的电脑上看起来不错但在手机上看起来很糟糕元素脱离了白框 div 页面看起来一团糟所以我希望手机上显示的页面与电脑上显示的页面相同你能帮忙吗我只有13岁所以
jsTree 拖放并不总是有效

将节点拖到新位置并不总是有效我的代码就像 product category tree jstree plugins themes html data dnd themes icons false dots false bind move
发布 MVC 应用程序 VS2013 时不包含字体文件

我已将 Twitter Bootstrap 集成到我的 ASP NET MVC 4 应用程序中在我的源代码中我有以下字体文件当我发布我的应用程序时仅 svg文件包含在此fonts folder 我也有这个img文件夹是引导程序的一部
对 NEHotspotHelper.register 的调用永远不会返回

我正在开发一个 iOS 应用程序它需要自动连接到 WiFi 网络我们已向 Apple 请求 NEHotspotHelper 扩展该扩展已获得批准现在我正在尝试自动连接到周围的WiFi网络但是调用方法NEHotspotHelper
在 .NET Core 2.1 中安装 .NET SQL Client 后，DbProviderFactories.GetFactoryClasses 不返回任何结果

我正在将一个库移植到 NET Core 2 1 因为它支持 DbProviderFactory 在大多数情况下它都运行良好它可以编译但运行时出现错误 System ArgumentException 在注册的 NET 数据提供程序列表
使用 jpype 在 Python 中启动 JVM 的困难

我最近一直在使用 jpype 与一些使用 python 的 java 代码集成并且没有遇到任何真正的问题我现在尝试在新系统上设置我的堆栈但遇到了困难我正在运行 32 位 Python 3 6 5 和 32 位 oracle Java
将 console.log 分配给另一个对象（Webkit 问题）

我想让我的日志语句尽可能短同时防止控制台不存在时被访问我想出了以下解决方案 var if console log console debug else log function 对我来说这看起来相当优雅并且在 Firefox 3 6
检查目标时出错：预期 time_distributed_5 有 3 个维度，但得到形状为 (14724, 1) 的数组

尝试建立单输出回归模型但最后一层似乎有问题 inputs Input shape 48 1 lstm CuDNNLSTM 256 return sequences True inputs lstm Dropout dropouts 0 l
Linux 上的 Java 窗口半透明

在 Windows XP SP3 Vista 7 8 和 Mac OS X Mountain Lion 上使用 Java 7 窗口半透明效果非常好但是在 Linux 上我无法让它正常工作使用教程发现here http docs ora
增加核心数量时性能会下降

我的 Mac 配备 16 核 System out println Runtime getRuntime availableProcessors 16 我正在运行下面的代码来查看利用我的核心的有效性线程 CountFileLineThre
C 中的竞争条件

我有以下程序缩写来使用线程计算每个字母在文件中出现的次数 define N LETTERS 26U define IS LETTER x x gt A x lt Z define HASH x toupper x A typedef u
Android 中的全屏 webview

我制作了一个简单的 hello web 视图示例我想将其全屏显示就像我不想要两个最上面的黑条一样有人知道该怎么做吗多谢最快的方法是添加 android theme android style Theme NoTitleBar Fu
在 JFrame 上绘画而不扩展

我的应用程序不是面向 JFrame 的它只是使用 JFrame 进行输出我只需要能够告诉它在此处绘制一个矩形然后立即清除屏幕数百次为此我在 main 中编写了以下代码根据我的理解该代码应该将整个 JFrame 清除为漂亮的蓝
从 PySpark 中的 s3 子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件包括子目录中的所有文件这些实际上是前缀在 S3 URL 中使用通配符仅适用于指定文件夹中的文件例如使用此代码将仅读取下面的镶木地板文件target folder df spar

从 PySpark 中的 s3 子目录读取数据

从 PySpark 中的 s3 子目录读取数据 的相关文章

随机推荐

热门标签

从 PySpark 中的 s3 子目录读取数据的相关文章