从 Pyspark 中的多个目录读取 parquet 文件

2024-03-27

我需要从不是父目录或子目录的多个路径读取镶木地板文件。

例如，

dir1 ---
       |
       ------- dir1_1
       |
       ------- dir1_2
dir2 ---
       |
       ------- dir2_1
       |
       ------- dir2_2

sqlContext.read.parquet(dir1)从 dir1_1 和 dir1_2 读取镶木地板文件

现在我正在读取每个目录并使用“unionAll”合并数据帧。有没有办法从 dir1_2 和 dir2_1 读取镶木地板文件而不使用unionAll或者有什么奇特的方式使用unionAll

Thanks

有点晚了，但我在搜索时发现了这个，它可能对其他人有帮助......

您也可以尝试将参数列表解压缩为spark.read.parquet()

paths=['foo','bar']
df=spark.read.parquet(*paths)

如果您想将一些 blob 传递到路径参数中，这很方便：

basePath='s3://bucket/'
paths=['s3://bucket/partition_value1=*/partition_value2=2017-04-*',
       's3://bucket/partition_value1=*/partition_value2=2017-05-*'
      ]
df=spark.read.option("basePath",basePath).parquet(*paths)

这很酷，因为您不需要列出基本路径中的所有文件，并且您仍然可以获得分区推断。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

parquet

从 Pyspark 中的多个目录读取 parquet 文件的相关文章

Apache Spark 警告“在 RowBasedKeyValueBatch 上调用溢出()”的含义

我正在使用 Apache Spark 本地模式运行 pyspark 2 2 0 作业并看到以下警告 WARN RowBasedKeyValueBatch Calling spill on RowBasedKeyValueBatch Wil
如何通过继承向 Pyspark Dataframe 类添加自定义方法

我正在尝试继承 DataFrame 类并添加其他自定义方法如下所示以便我可以流畅地链接并确保所有方法引用相同的数据帧我收到异常因为列不可迭代 from pyspark sql dataframe import DataFrame c
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
在 PySpark 中展平动态嵌套结构（结构内的结构）

我正在努力展平结构内有结构的 JSON 模式问题是内部结构名称是动态的因此我无法使用轻松访问它们概念该架构类似于 root A string nullable true Plugins struct nullable true R
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
如果包含字符串列表，则过滤 pyspark 数据帧

假设我们有一个 pyspark 数据框其列之一 column a 包含一些字符串值并且还有一个字符串列表 list a 数据框 column a count some string 10 another one 20 third str
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容

随机推荐

如何让一个我无法更改的类实现一个接口？

我有一个来自另一个库的闭源类但我希望能够使用它的接口原因是我不想做instanceof支票或null 到处检查但我也不想扩展现有的类例如假设我有以下代码 public class Example QuietFoo is from
我可以将我的域名指向 Azure 网站吗？

在当前的技术预览版中 Azure 允许您创建 10 个 ASP NET 网站他们被赋予诸如以下的域 http yourappname azurewebsites net http yourappname azurewebsites net
如何避免硬编码数据库连接密码？

我正在做一个学校项目编写一个网站我遇到了提供连接数据库的密码的问题由于我们的开源许可证我们必须发布源代码但这意味着每个人都可以连接到数据库并查看数据目前我们的连接一个 php 文件如下所示 host password thi
如何在 DriverKit 中将我的 dex 与 USB 设备匹配？

我正在编写一个驱动程序包扩展其目标是阻止 USB 设备例如闪存驱动器作为起点我选择了示例项目https developer apple com documentation driverkit communicating Betwee
Java EE：从登录表单的 POST 获取参数

我正在尝试实现一个简单的登录 servlet 但它无法正常工作我想知道什么是如何使用 HTTP POST 传递参数它已经可以与 HTTP GET 配合使用但用户名和密码可以从 URL 中看到最好将它们隐藏在 POST 中
Swift 3 中的 HTTP 请求

我对 Swift 相当陌生正在尝试发出 HTTP 请求我尝试了很多想法在这个堆栈溢出问题中 https stackoverflow com questions 24016142 how to make an http request i
Symfony2 - 如何扩展供应商包（例如 FOSFacebookBundle）

设想我正在使用一个捆绑包 FOSFacebookBundle 它允许我为我的配置中的一个 Facebook 应用程序设置参数一切都工作得很好但现在我不仅需要设置一个应用程序而且还需要设置多个应用程序我的做法我创建了一个 Acme
访问令牌响应：tokenType 不能为 null

我正在升级我的服务并使用 oAuth2 实现 webclient 但我收到的异常是 tokenType 不能为空您能帮我解决这个问题吗例外 org springframework security oauth2 core OAuth2A
与具有多行的 fk 设置一对多关系

I have a problem with setting up a one to many relation with EF Core I have two tables address and address country There
如何在 Tensorflow 中进行 Argsort？

如何沿第二轴对 25 x 5 x 5 矩阵张量进行 argsort 本质上我正在寻找 numpy 的 argsort 的 TensorFlow 等效项函数或方法例如np argsort matrix 2 在你的情况下你可能会使用t
PHP SimpleXML + 获取属性

我正在阅读的 XML 如下所示
当我运行我的项目时出现此错误：java.sql.SQLException：无法识别区域设置

帮助我解决正在开发的项目的此错误 WARN main JDBCExceptionReporter logExceptions 233 SQL Error 0 SQLState null ERROR main JDBCExceptionRep
如何在 Mac 上访问 Intellij 2017+ 中的助记词？

他们支持的 Intellij 代码库中有一些证据ALT Meta CTL mnemonic 在Mac中 E g in platform platform api src com intellij openapi MnemonicWrappe
快速按下时禁用按钮 90 秒

我有一个显示模态视图的按钮但我希望如果用户单击它他将在 90 秒内无法再次使用它我怎样才能做到这一点在按钮的 IBAction 中禁用按钮并设置一个计时器如下所示 self button enabled false NSTime
具有多个变量的 Thymeleaf URL

我在我的 Spring 项目中使用 thymeleaf 作为模板引擎我的问题是我正在尝试将表单提交到包含两个变量的 url 例如 mysite bla id bla id2 网址中的两个变量所以我正在尝试这样做 th href bl
创建本地自定义主机名而不是 localhost？

目前我的 Flask 应用程序在本地运行 http localhost 5000 some page http localhost 5000 some page 如何为我的应用程序创建本地自定义位置例如 http myappname s
无法从 Visual Studio 2017 启动 AVD 管理器或 SDK 管理器

我使用 Xamarin 安装了 Visual Studio Professional 但是withoutAndroid SDK 和 Android NDK 然后我分别下载了SDK和NDK 解压它们并在Visual Studio选项中设置它们
如何在 Postgres 9.4 JSONB 列中执行不区分大小写的搜索？

我正在使用此查询来查找表中的数据其中profile is a JSONB柱子它有效但前提是名称正是这个名称 SELECT FROM users WHERE profile gt name Super User 是否可以有更多的灵活性
如何播放iPhone点击声音？

我的 iPhone 应用程序中有一个按钮我希望在点击该按钮时播放默认的键盘敲击声音我已经能够轻松地播放自己的自定义声音但是有没有办法在我的应用程序中播放这样的默认系统声音使用系统声音 http iphonedevwiki net
从 Pyspark 中的多个目录读取 parquet 文件

我需要从不是父目录或子目录的多个路径读取镶木地板文件例如 dir1 dir1 1 dir1 2 dir2 dir2 1 dir2 2 sqlContext read parquet dir1 从 dir1 1 和 dir1 2 读取镶木地

从 Pyspark 中的多个目录读取 parquet 文件

从 Pyspark 中的多个目录读取 parquet 文件 的相关文章

随机推荐

热门标签

从 Pyspark 中的多个目录读取 parquet 文件的相关文章