多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径

2024-02-25

我有多个作业想要并行执行，这些作业使用分区将每日数据附加到同一路径中。

e.g.

dataFrame.write().
         partitionBy("eventDate", "category")
            .mode(Append)
            .parquet("s3://bucket/save/path");

作业 1 - 类别 =“billing_events” 作业 2 - 类别 =“click_events”

这两个作业都会在执行之前截断 s3 存储桶中存在的任何现有分区，然后将生成的 parquet 文件保存到各自的分区。

i.e.

作业 1 -> s3://bucket/save/path/eventDate=20160101/channel=billing_events

作业 2 -> s3://bucket/save/path/eventDate=20160101/channel=click_events

我面临的问题是 Spark 在作业执行期间创建的临时文件。它将工作文件保存到基本路径

s3://bucket/save/path/_temporary/...

因此，这两个作业最终共享相同的临时文件夹并导致冲突，我注意到这可能会导致一个作业删除临时文件，而另一个作业失败，并显示来自 s3 的 404 消息，表示预期的临时文件不存在。

有没有人遇到过这个问题并提出了在同一基本路径中并行执行作业的策略？

我现在使用spark 1.6.0

因此，在阅读了很多关于如何解决这个问题的文章后，我想我应该将一些智慧传回这里来总结一下。主要感谢塔尔的评论。

我还发现直接写入 s3://bucket/save/path 似乎很危险，因为如果一个作业被终止并且临时文件夹的清理在作业结束时没有发生，那么它似乎就留在那里了下一个工作，我注意到有时之前被杀死的工作临时文件会落在 s3://bucket/save/path 中并导致重复...完全不可靠...

此外，将 _temporary 文件夹文件重命名为其相应的 s3 文件需要花费大量时间（每个文件大约 1 秒），因为 S3 仅支持复制/删除而不支持重命名。此外，只有驱动程序实例使用单个线程重命名这些文件，因此具有大量文件/分区的某些作业中多达 1/5 的时间都花在等待重命名操作上。

由于多种原因，我排除了使用 DirectOutputCommitter。

当与推测模式结合使用时，会导致重复（https://issues.apache.org/jira/browse/SPARK-9899 https://issues.apache.org/jira/browse/SPARK-9899)
任务失败会留下混乱，以后无法找到并删除/清理。
Spark 2.0 已完全删除对此的支持，并且不存在升级路径。（https://issues.apache.org/jira/browse/SPARK-10063 https://issues.apache.org/jira/browse/SPARK-10063)

执行这些作业的唯一安全、高性能且一致的方法是首先将它们保存到 hdfs 中唯一的临时文件夹（通过 applicationId 或时间戳唯一）。并在作业完成时复制到 S3。

这允许并发作业执行，因为它们将保存到唯一的临时文件夹，无需使用 DirectOutputCommitter，因为 HDFS 上的重命名操作比 S3 更快，并且保存的数据更加一致。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

parquet

多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径的相关文章

Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
最大模式长度 fpgrowth apache Spark

我正在尝试使用 Spark Scala 运行关联规则我首先创建一个 FPGrowth 树并将其传递给关联规则方法但是我希望添加最大模式长度参数以限制我想要在左侧和右侧的项目数量我只想要项目之间的一对一关联 val model ne
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方

随机推荐

使用标识符/标签 (SWIFT) 从 UIView 获取 UITextField

我需要知道如何从 ViewController 类访问 UIView 中的特定 UITextField 我当前的设置是 ViewController 链接到故事板中的视图我的笔尖中有 UIView 有 3 个 UITextField 我使
登录后重定向至引荐来源网址不起作用

用户登录后我想将他们重定向回他们来自的地方但它在 CakePHP 3 5 中无法正常工作以下是帮助我解决这个问题所需的信息登录时的 URL 会话超时 http dev scys com db admin redirect 2Fadm
如何知道 Chrome 是通过哪些 CLI 开关启动的？

我问过一个问题 https stackoverflow com q 40032182 2715716之前我在使用 CLI 开关影响 Chrome 的安全模型时遇到了问题这个问题得到了一个很好且有用的答案但它对我不起作用我现在无法确定问
webdriver.io：查找 iframe 中的元素

我正在尝试访问网页上 iframe 内的元素目标是切换到此 iframe 上下文然后单击此 iframe 中的元素这些元素在 iframe 之外不可见但当我切换到此 iframe 时我仍然看不到这些元素使用浏览器中的开发人员工具
将 hadoop 流与 python 组合器一起使用时失败

我尝试使用 python 的 hadoop 流来计算输入键的平均值以下是mapper combiner和reducer的代码 mapper import sys def map argv line sys stdin readline t
如何在 C# 中的字符串中的索引处设置字符？

someString someRandomIdx g 会给我一个错误我如何实现上述目标如果是类型string那么你就不能这样做因为字符串是不可变的它们一旦设置就无法更改为了实现你想要的你可以使用StringBuilder Str
领域日期查询

在我的 RealmSwift 0 92 3 Xcode6 3 下我会如何 the Realm Object Definition import RealmSwift class NameEntry Object dynamic var p
RazorPages 页面远程无法在模型上工作

as per https www mikesdotnetting com article 343 improved remote validation in razor pages https www mikesdotnetting com
需要时 Nodemailer 出错

我的简历网站即将完成我刚刚完成联系我表单该表单应该向我发送一封包含一些纯文本的电子邮件这是 Jade 中的样子 div contact email box form id contact form action method po
下载在门户上创建的机器人会导致解决方案无效/无法运行

我去 Azure 门户尝试了 Bot Framework 我按照步骤创建了一个Proactive bot 没有做任何改变我去了Configure continuous integration并下载了 zip 文件当我尝试在 Visual
使用 Apache POI 设置日期格式

我想使用 Apache POI 在 Excel 文件中设置日期格式的日期该值将以这样的方式设置以便在地址栏中它将显示为 mm dd YYYY 在单元格中它将显示为 dd mmm 数字日和月缩写 01 Jan 您可以申请一个CellSty
适用于 API 和非 API 使用的 Laravel 资源控制器

创建资源控制器后PhotosController对于还对 API 进行 AJAX 调用的网站资源控制器似乎既可以在普通网站上使用也可以作为 API 使用这将显示一个 HTML 页面Photoid 1 http domain com p
IIS 部署的 ASP.NET Core 应用程序出现间歇性 431 请求标头太长错误

我正在开发一个 ASP NET Core 应用程序该应用程序消耗GraphQL端点通过RestSharp检索数据这是一个 Intranet 类型的应用程序部署在 Windows 2016 IIS 服务器上我们正在使用 Windows
SwiftUI NavigationBarItems SlideBack 冻结应用程序

My HomeView 我存储列表的地方Movies has NavigationView and NavigationLink目的地为DetailView 当我想添加的时候NavigationBarItems in my DetailVi
Mysql row_number 根据值排名

我试图根据数据库中的值找出某人的排名但我不明白row number here 基本查询我想添加排名 select player id value from player storage where key 40001 order by
无法捕获 ConstraintViolationException

尽管我在日志中看到它但我似乎无法捕获约束违规异常 Entity Column unique true private String email 我想像这样抓住它 try memberDao create newMember catch C
python selenium send_keys 表情符号字符

我需要用selenium发送表情符号例如硒返回一个错误我测试了 send keys unicode bio text ascii iso 8859 1 结果相同如何使用 python selenium 发送这些字符蟒蛇代码 dri
适用于无需互联网连接的 Android 应用的 Firebase Crashlytics

我有一个看起来像这样的设置 App WiFi but no Hardware internet WiFi with internet
无法使用 firebase 控制台发送数据消息

我正在使用 firebase 控制台并且只能使用它发送通知消息有没有办法使用相同的方式发送数据消息 Firebase 通知控制台只能用于发送通知消息它不能用于发送数据消息参见表中Firebase 文档中的消息类型 https fir
多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径

我有多个作业想要并行执行这些作业使用分区将每日数据附加到同一路径中 e g dataFrame write partitionBy eventDate category mode Append parquet s3 bucket save

多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径

多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径 的相关文章

随机推荐

热门标签

多个 Spark 作业通过分区将镶木地板数据附加到同一基本路径的相关文章