Spark：并行转换多个数据帧

2024-05-10

了解如何在并行转换多个数据帧时实现最佳并行性

我有一系列路径

val paths = Array("path1", "path2", .....

我从每个路径加载数据帧，然后转换并写入目标路径

paths.foreach(path => {
  val df = spark.read.parquet(path)
  df.transform(processData).write.parquet(path+"_processed")
})

转变processData独立于我正在加载的数据框。

这限制了一次处理一个数据帧，并且我的大部分集群资源都处于空闲状态。由于处理每个数据帧是独立的，我转换了Array to ParArray斯卡拉。

paths.par.foreach(path => {
  val df = spark.read.parquet(path)
  df.transform(processData).write.parquet(path+"_processed")
})

现在它在集群中使用更多的资源。我仍在尝试了解它是如何工作的以及如何在这里微调并行处理

如果我使用以下命令增加默认的 scala 并行度ForkJoinPool到更高的数量，是否会导致更多线程在驱动程序端产生，并且将处于锁定状态等待foreach函数来完成并最终杀死驱动程序？
它如何影响集中火花之类的事情EventLoggingListnener由于并行处理多个数据帧，它需要处理更多的事件流入。
为了实现最佳资源利用，我需要考虑哪些参数。
任何其他方法

我可以通过了解这种扩展的任何资源都会非常有帮助

速度慢的原因是 Spark 非常擅长对存储在一个大数据帧中的大量数据进行并行计算。然而，它在处理大量数据帧方面非常糟糕。它将使用其所有执行器开始计算（即使并非全部需要），并等待它完成后再开始下一个执行器。这会导致大量不活动的处理器。这很糟糕，但这不是 Spark 的设计目的。

我有一个技巧给你。可能需要稍微完善一下，但你会有这个想法。这就是我要做的。从路径列表中，我将提取镶木地板文件的所有架构，并创建一个收集所有列的新大架构。然后，我会要求 Spark 使用此架构读取所有镶木地板文件（不存在的列将自动设置为 null）。然后，我将合并所有数据帧并对这个大数据帧执行转换，最后使用partitionBy将数据帧存储在单独的文件中，同时仍然并行执行所有操作。它看起来像这样。

// let create two sample datasets with one column in common (id)
// and two different columns x != y
val d1 = spark.range(3).withColumn("x", 'id * 10)
d1.show
+---+----+
| id|  x |
+---+----+
|  0|   0|
|  1|  10|
|  2|  20|
+---+----+

val d2 = spark.range(2).withColumn("y", 'id cast "string")
d2.show
+---+---+
| id|  y|
+---+---+
|  0|  0|
|  1|  1|
+---+---+

// And I store them
d1.write.parquet("hdfs:///tmp/d1.parquet")
d2.write.parquet("hdfs:///tmp/d2.parquet")

// Now let's create the big schema
val paths = Seq("hdfs:///tmp/d1.parquet", "hdfs:///tmp/d2.parquet")
val fields = paths
    .flatMap(path => spark.read.parquet(path).schema.fields)
    .toSet //removing duplicates
    .toArray
val big_schema = StructType(fields)

// and let's use it
val dfs = paths.map{ path => 
    spark.read
        .schema(big_schema)
        .parquet(path)
        .withColumn("path", lit(path.split("/").last))
}

// Then we are ready to create one big dataframe
dfs.reduce( _ unionAll _).show
+---+----+----+----------+
| id|   x|   y|      file|
+---+----+----+----------+
|  1|   1|null|d1.parquet|
|  2|   2|null|d1.parquet|
|  0|   0|null|d1.parquet|
|  0|null|   0|d2.parquet|
|  1|null|   1|d2.parquet|
+---+----+----+----------+

然而，我不建议使用unionAll在很多数据帧上。由于 Spark 对执行计划的分析，对于许多数据帧，它可能会非常慢。我会使用 RDD 版本，尽管它更冗长。

val rdds = sc.union(dfs.map(_.rdd))
// let's not forget to add the path to the schema
val big_df = spark.createDataFrame(rdds, 
    big_schema.add(StructField("path", StringType, true)))
transform(big_df)
    .write
    .partitionBy("path")
    .parquet("hdfs:///tmp/processed.parquet")

看看我处理过的目录，我得到这个：

hdfs:///tmp/processed.parquet/_SUCCESS
hdfs:///tmp/processed.parquet/path=d1.parquet
hdfs:///tmp/processed.parquet/path=d2.parquet

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark：并行转换多个数据帧的相关文章

如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current

随机推荐

useEffect 中的 useState 不更新状态

我是 React Hooks 新手正在使用 React 16 13 1 我要实施Auth能够处理登录的组件但似乎没有更新状态currentUser正确地尽管setCurrentUser使用响应对象调用这段代码有什么问题 import
JavaScript：嵌套循环？

我想实现这样的动画序列动画以循环开始想象一下car从 x1 移动到 x2 然后暂停 1 秒然后再次播放动画想象一下car从 x2 移动到 x3 等 the car循环是通过向汽车左侧添加 1px 来实现的值但我无法弄清楚嵌套循
无法使用数据源配置向导在 Web 项目中添加数据源

Problem 我想将报告 rdlc 添加到我的 Web 项目中我需要报表使用对象数据源而不是直接连接到数据库我的问题是当我运行报告向导或向报告添加新数据集时数据源配置向导 only允许我使用数据库然而在图书馆项目中数据源
C# 中不区分大小写的替换不使用正则表达式？

有没有一种方法可以在不使用 C 中的正则表达式的情况下对字符串进行不区分大小写的替换像这样的东西 string x Hello x x Replace hello hello world 你可以尝试类似的东西 string str Hel
如何在IOS中使用“*”字符进行呼叫（拨号）？

我希望用字符来调用例如 gt 711313 目前我正在使用这段代码 NSString str NSString stringWithFormat tel tmp UIApplication sharedApplication open
选择不带 FROM 但有多于一行的选择

如何在不从现有表中进行选择的情况下生成 2 行 2 列的表我正在寻找的是一个返回的选择语句 e g id value 1 103 2 556 Use UNION http dev mysql com doc refman 5 0 en u
scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如
Spring Boot中使用自定义令牌进行身份验证

我需要保护我的 Spring Boot 应用程序这就是我所拥有的一个 Spring Boot 应用程序公开了一些 REST API 与公开的 api 通信的前端前端发送用于身份验证的自定义身份验证令牌存储自定义身份验证令牌的数据库
postgreSQL 将分区表（带插入触发器）从一台服务器转储和恢复到另一台服务器

尝试将分区表从一台服务器转储到 PostgreSQL 9 4 5 中的另一台服务器对 postgres 相当陌生并继承了该项目如果需要更多背景信息请告诉我 dbname gt SELECT COUNT id FROM parent
使用数学符号注释 Adobe Reader PDF

我阅读的许多数学教科书和其他文献都是 PDF 格式因此我经常使用 Adob e Reader 注释工具对它们进行注释我确实找到了一个有用的指南 http cjasn asnjournals org site misc annotatin
SQL：两个没有完整列匹配的表的并集

我有一个table A其中有一组列A1 A2和一个具有一组列的 table bB1 B2 碰巧的是A2 B1但其余列不匹配也不应该匹配我想附加表格所以我使用UNION ALL 对于不匹配的列我使用null as COLUMN NAM
Moq - 是否可以在不使用 It.IsAny 的情况下设置模拟

我一直使用 Moq 进行单元测试有时我会嘲笑有很多参数的方法想象一下这样的方法 public class WorkClient public void DoSomething string itemName int itemCount
从 postgres 表中提取 json 数组给出错误：无法从标量中提取元素

通过使用jsonb array elements 提取出来的函数jsonb来自 Postgres 的数据数组它给出了错误无法从标量中提取元素我认为这是因为NULL在返回调用中添加了NULL检查状况但不工作任何帮助表示赞赏 sele
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
如何使用 php 创建谷歌双因素身份验证？

我想在我的 PHP 项目中使用 Google 2FA 用户登录时需要输入6位2fa代码您可以画出一些关于该朝哪个方向走的提示吗步骤 1 创建长度为 16 个字符的唯一密码 PHPGangsta 为 Google Authenticato
如何在 Linux x86_64 上模拟 iret

我正在编写一个基于 Intel VT 的调试器由于当 NMI Exiting 1 时 iret 指令在 vmx guest 中的性能发生了变化所以我应该自己处理vmx主机中的NMI 否则 guest会出现nmi可重入错误我查了英特尔手
Flutter - 使用 PushReplacementNamed 在路由之间传递值

我正在尝试使用以下方式在路线之间传递值Navigator pushReplacementNamed 但我不明白我无法弄清楚数据退出的正确语法和逻辑是什么pushReplacementNamed并得到routes key 你能帮助我吗输入
Linux：命令行实用程序将 RTF 转换为 PDF？

有什么建议可以将 RTF 转换为 PDF 吗我需要从 LAMP 应用程序执行此操作因此像 GhostScript 这样的命令行实用程序将是理想的选择或者您可以使用 libreoffice 来完成此任务 libreoffice hea
存储过程将多个表返回到 spring jdbc 模板

我正在使用 JdbcTemplate 从 Spring DAO 类调用存储过程我的问题是存储过程返回多个表有没有办法使用 Spring JdbcTemplate 访问多个表如果我使用jdbcTemplate queryForList
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re

Spark：并行转换多个数据帧

Spark：并行转换多个数据帧 的相关文章

随机推荐

热门标签

Spark：并行转换多个数据帧的相关文章