将 Spark 数据帧写入单个 Parquet 文件

2024-01-11

我想做一些非常简单的事情，但我遇到了一些非常愚蠢的挣扎。我认为这一定与对 Spark 所做的事情的根本误解有关。我将非常感谢任何帮助或解释。

我有一个非常大的表（~3 TB，~300MM 行，25k 分区），在 s3 中保存为 parquet，我想将其作为单个 parquet 文件的小样本提供给某人。不幸的是，这需要很长时间才能完成，我不明白为什么。我已经尝试过以下方法：

tiny = spark.sql("SELECT * FROM db.big_table LIMIT 500")
tiny.coalesce(1).write.saveAsTable("db.tiny_table")

然后当那不起作用时我尝试了这个，我thought应该是一样的，但我不确定。（我添加了print正在努力调试。）

tiny = spark.table("db.big_table").limit(500).coalesce(1)
print(tiny.count())
print(tiny.show(10))
tiny.write.saveAsTable("db.tiny_table")

当我观看 Yarn UI 时，both打印报表and the write使用 25k 映射器。这count花了3分钟，show花了 25 分钟，write花了大约 40 分钟，虽然最后did写出我正在寻找的单个文件表。

在我看来，第一行应该获取前 500 行并将它们合并到单个分区，然后其他行应该非常快地发生（在单个映射器/减速器上）。有人能看到我在这里做错了什么吗？有人告诉我也许我应该使用sample代替limit但据我了解limit应该快得多。是对的吗？

预先感谢您的任何想法！

我将接近print首先是函数问题，因为它是理解 Spark 的基础。然后limit vs sample. Then repartition vs coalesce.

其原因有print函数以这种方式花费这么长时间是因为coalesce是一个惰性转换。 Spark 中的大多数转换都是惰性的，直到action被叫。

行动是做事的事情并且（大部分）dont返回一个新的数据帧作为结果。喜欢count, show。它们返回一个数字和一些数据，而coalesce返回具有 1 个分区的数据帧（有点，见下文）。

发生的情况是您正在重新运行 sql 查询并且coalesce每次调用操作时调用tiny数据框。这就是为什么他们每次调用都使用 25k 映射器。

为了节省时间，请添加.cache()方法到第一行（对于你的print无论如何代码）。

然后，数据帧转换实际上在第一行执行，结果保留在 Spark 节点的内存中。

这不会对第一行的初始查询时间产生任何影响，但至少您不会再运行该查询两次，因为结果已被缓存，然后操作可以使用该缓存的结果。

要将其从内存中删除，请使用.unpersist()方法。

现在对于您尝试执行的实际查询...

这实际上取决于数据的分区方式。例如，它是否按特定字段等进行分区...

你在问题中提到了这一点，但是sample可能是正确的方法。

为什么是这样？

limit必须搜索 500 个first行。除非您的数据按行号（或某种递增 id）进行分区，否则前 500 行可以存储在 25k 分区中的任何一个中。

因此 Spark 必须搜索所有这些值，直到找到所有正确的值。不仅如此，它还必须执行一个额外的步骤，对数据进行排序以获得正确的顺序。

sample只获取 500 个随机值。这样做更容易，因为所涉及的数据没有顺序/排序，并且不必在特定分区中搜索特定行。

While limit可以更快，但它也有它的，呃，局限性。我通常只将它用于非常小的子集，例如 10/20 行。

现在进行分区....

我认为的问题coalesce is it 几乎更改分区。现在我对此不确定，所以有点盐。

根据pyspark docs:

此操作会导致狭窄的依赖性，例如如果从 1000 个分区增加到 100 个分区，则不会出现随机播放，而是 100 个新分区中的每一个都会占用当前分区中的 10 个。

因此，您的 500 行实际上仍然位于 25k 个物理分区中，这些分区被 Spark 视为 1 个虚拟分区。

引起洗牌（通常是坏的）并保留在火花内存中.repartition(1).cache()这里可能是个好主意。因为当您write，它应该只会导致 1 个映射器查看 Spark 内存中的内容。然后write变得容易。您还要处理一小部分，因此任何洗牌都应该（希望）是可控的。

显然，这通常是不好的做法，并且不会改变 Spark 在执行原始 sql 查询时可能需要运行 25k 个映射器的事实。希望sample照顾这个。

编辑以澄清洗牌，repartition and coalesce

您在 4 节点集群的 16 个分区中有 2 个数据集。您想要将它们加入并写入 16 个分区中的新数据集。

数据 1 的第 1 行可能位于节点 1 上，数据 2 的第 1 行可能位于节点 4 上。

为了将这些行连接在一起，spark 必须身体上的移动其中一个或两个，然后写入新分区。

这是一种洗牌，在集群中物理移动数据。

所有内容都按 16 分区并不重要，重要的是数据位于集群中的位置。

data.repartition(4)会将数据从每个节点的每 4 组分区物理移动到每个节点的 1 个分区中。

Spark 可能会将所有 4 个分区从节点 1 移动到其他 3 个节点，在这些节点上的一个新的单个分区中，反之亦然。

我不认为它会这样做，但这是一个证明这一点的极端案例。

A coalesce(4)调用虽然不移动数据，但它更聪明。相反，它会识别“我已经每个节点有 4 个分区，总共有 4 个节点……我只是将每个节点的所有 4 个分区称为单个分区，然后我总共就有 4 个分区！”

因此它不需要移动任何数据，因为它只是将现有分区组合成一个连接分区。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark 数据帧写入单个 Parquet 文件的相关文章

Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
按年份进行透视并获取 2020 年以来的金额总和

我有这样的数据我想按年份旋转并仅显示 2020 年以来的总数我该如何实现这一目标您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location

随机推荐

将 data.frame 中的列转换为日期

我的数据框 a1 lt c a a b b c d e e b2 lt c 01 01 2015 02 02 2015 14 02 2012 16 08 2008 17 06 2003 31 01 2015 07 01 2022 09 05
Python流提取

许多编程语言的标准库都包含扫描器 API 用于从文本输入流中提取字符串数字或其他对象例如 Java 包括Scanner类 C 包括istream C 包括scanf Python 中与此等效的是什么 Python 有一个流接口即继承
如何通过javascript从父窗口访问子窗口？

假设我们在父窗口上单击链接时通过 JavaScript 打开一个弹出窗口众所周知可以使用子窗口访问父窗口元素窗口 opener 功能是否可以完全相反父窗口可以访问子窗口的信息吗你的意思是这样的 a window open a do
Symfony 2 - 从数据库加载角色

我的角色存储在数据库中我试图在登录时动态加载它们我正在做的是查询角色并将它们设置在我的用户提供程序中的用户对象上如下所示 public function loadUserByUsername username q this gt cr
检查用户是否已授予NotificationListener访问我的应用程序的权限

我使用此代码打开通知侦听器设置 startActivity new Intent android settings ACTION NOTIFICATION LISTENER SETTINGS 我想检查用户是否已向我的应用程序授予授权我已经
如何在像 obj-c 的 Map 方法这样的 ruby 中迭代时跳过对象

使用答案here https stackoverflow com a 7248251 766570这个方法实现了类似于 obj c 中 ruby 的映射的效果 NSArray mapObjectsUsingBlock id id obj N
如何使用 PHPUnit 重置模拟对象

如何重置 PHPUnit 模拟的 Expects 我有一个 SoapClient 的模拟我想在测试中多次调用它重置每次运行的期望 soapClientMock this gt getMock SoapClient array soapC
如何构建一个异步休息端点，在工作线程中调用阻塞操作并立即回复（Quarkus）

我检查了文档和 stackoverflow 但没有找到合适的方法例如这篇文章看起来非常接近使用 Quarkus Mutiny 在 Reactive REST GET 端点中调度阻塞服务 https stackoverflow com
如何从 TensorFlow 中的 3-D 张量中选择行？

我有一个张量logits与尺寸 batch size num rows num coordinates 即批次中的每个 logit 都是一个矩阵在我的例子中批量大小为 2 有 4 行和 4 个坐标 logits tf constant
Mercurial：用于获取存储库名称的任何命令或 python api

是否有任何 Mercurial 命令或 Python API 可以生成存储库名称这将有助于开发跨存储库脚本我发现的唯一相关解决方案是解析 hg hgrc paths 默认配置选项部分 paths default ssh server
WebClient如何自动添加文件夹？

WebClient webClient new WebClient webClient DownloadFileAsync new Uri urlDownload C Files Test Folder test txt 如果我想将 tes
Excel VBA 的正则表达式正向回顾问题

我正在运行 VBA Excel 2003 并测试正向回顾正则表达式模式我运行下面的函数但出现以下错误 Run time error 5017 Method Execute of object IRegExp2 failed 我也尝试过Se
在 Blackberry 中创建对话框

Hi I want to create a Login Screen which has a Username and Password and a Sign in Button But when a user fails to enter
OpenAPI：“请求应具有必需的属性‘body’”

我正在我的应用程序中构建一个新端点它使用express openapi validator作为验证器中间件 index ts import as OpenApiValidator from express openapi validato
如何检测我的 Android 设备何时与配对的蓝牙设备连接/断开连接

我希望收到一个事件来检测蓝牙在我的设备中配对或取消配对的时间一开始我发现http developer android com reference android bluetooth BluetoothServerSocket html h
Windows 上 Python 3.6 中的原始套接字数据包嗅探器

我正在尝试嗅探数据包但我得到了奇怪的输出我不明白原因这就是我的代码please help me 我在 Windows 8 1 上使用 Python 3 6 Code import socket import struct import
获取 codeigniter 中的列值数组[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个具有以下结构的表整数 ID 11 用户 ID int 11 notification event id int 11 我如何获得
linq 中的 switch 语句

我使用 linq 进行 sql 连接的代码是 var query1 from u in dc Usage Computers where u DomainUser s3 select u selects all feilds from ta
Pyspark Spark DataFrame - 地图类型列中的聚合和过滤列

My DataFrame好像 c1 c2 c3 A b 22 00 A b 23 00 A b 09 00 A c 22 00 B c 09 30 我想执行一些聚合并创建第二个DataFrame有 3 列 c1 是我想要分组的列地图类别房
将 Spark 数据帧写入单个 Parquet 文件

我想做一些非常简单的事情但我遇到了一些非常愚蠢的挣扎我认为这一定与对 Spark 所做的事情的根本误解有关我将非常感谢任何帮助或解释我有一个非常大的表 3 TB 300MM 行 25k 分区在 s3 中保存为 parquet 我想

将 Spark 数据帧写入单个 Parquet 文件

将 Spark 数据帧写入单个 Parquet 文件 的相关文章

随机推荐

热门标签

将 Spark 数据帧写入单个 Parquet 文件的相关文章