写入 JSON 文件时出现阶段失败 Spark FileAlreadyExistsException

2024-01-03

我正在尝试以 JSON 格式将数据帧写入 s3 位置。但是每当执行器任务失败并且 Spark 重试该阶段时，它就会抛出FileAlreadyExistsException.

A 类似的问题 https://stackoverflow.com/questions/57471781/spark-filealreadyexistsexception-on-stage-failure之前已被问过，但它使用单独的 Spark conf 解决了 ORC 文件，并且没有解决我的问题。

这是我的代码：

val result = spark.sql(query_that_OOMs_executor)
result.write.mode(SaveMode.Overwrite).json(s3_path)

从 Spark UI 中，执行器上的错误显示

ExecutorLostFailure (executor 302 exited caused by one of the running tasks) 
Reason: Container killed by YARN for exceeding memory limits. 4.5 GB of 4.5 GB physical memory used. 
Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nodemanager.vmem-check-enabled because of YARN-4714.

但驱动程序堆栈跟踪显示

Job aborted due to stage failure: Task 1344 in stage 2.0 failed 4 times, most recent failure: Lost task 1344.3 in stage 2.0 (TID 25797, executor.ec2.com, executor 217): org.apache.hadoop.fs.FileAlreadyExistsException: s3://prod-bucket/application_1590774027047/-650323473_1594243391573/part-01344-dc971661-93ef-4abc-8380-c000.json already exists

我该如何让 Spark 尝试覆盖这个 JSON 文件？这样，一旦 4 次重试都失败，我就能得到驱动程序的真正原因。我已经将模式设置为覆盖，所以这没有帮助。

发生此问题是因为存在根本问题DirectFileOutputCommitter默认情况下此处使用的。

这里有两件事：执行者OOM，然后FileAlreadyExistsException重试时会导致重试（以及 SQL 查询）失败。

Reason: The DirectFileOutputCommitter将尝试在单个任务尝试中将输出文件写入最终输出路径。它将通过写入暂存目录，然后重命名为最终路径并删除原始路径来做到这一点。这很糟糕，容易出现不一致和错误，Spark 也不推荐这样做。

相反，我用了Netflix S3 提交者 https://github.com/rdblue/s3committer这将以多部分的方式做到这一点。它将首先在本地磁盘上写入文件，然后在任务提交期间，每个文件都会分部分上传到 S3，但不会立即可见，然后在作业提交期间（只有当所有任务完成时才会发生）成功，这是一个安全的操作）本地磁盘数据将被删除，上传将完成（现在数据将在 S3 上可见）。这可以防止失败的任务直接将内容写入 S3，从而避免FileAlreadyExistsException重试时。

现在对于执行程序 OOM — 我的查询仍然会发生这种情况，但重试成功，之前也失败了DirectFileOutputCommitter.

为了解决这个问题，我基本上做了

set spark.sql.sources.outputCommitterClass=com.netflix.s3.S3DirectoryOutputCommitter;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

写入 JSON 文件时出现阶段失败 Spark FileAlreadyExistsException 的相关文章

IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja

随机推荐

在 setuptools 中使用 console_scripts 时出现导入错误

我正在尝试构建一个名为dnsrep在Python中我使用setuptools 这样我就可以调用dnsrep不使用命令的模块python dnsrep The setup py我写的脚本如下 from setuptools import s
跨源 Chrome 扩展

上周左右我一直在阅读和使用 Chrome 扩展但我在尝试实现我想要的东西时遇到了困难我想要创建的是一个扩展它在后台或默默地访问网站在网页上填写表格并检索响应该网站没有 API 我无法创建服务器来执行此操作因为该网站每小时只允
在浏览器中访问 webpack 捆绑的库

我在从浏览器访问 webpack 捆绑库时遇到问题示例我有一节课Foo foo js use strict export default class Foo constructor var bar bar Foo被导入到src js s
创建对象时出现 TypeInitializationException 异常

我有一个程序集 Net 3 5 中的类库项目其中有一些引用例如System Configuration and System Web 我在网络应用程序上使用它并且运行良好现在我需要引用 Windows 窗体项目但我无法理解发生了什
GOF 与 CQRS 中命令模式的含义

当查看命令模式时发现了细微的差异也许有些人能够更清楚地说明这一点当查看 Gang Of Four 时它说每个命令都有一个Execute方法参见例如 http www blackwasp co uk Command aspx http
数据库中空值使用的空间

如果列为空是否会影响该列使用的空间使用的空间是否由列定义固定这是否因数据库而异我主要对 SQL Server 2000 感兴趣澄清这个问题与列可为空时发生的情况无关正如 Kritsen 和 gbn 指出的那样这会增加一点
numpy 排列和哪里

我试图通过 where 在 arange 创建的数组中查找值但似乎效果不佳这是一个例子 from numpy import arange where myarr arange 6 6 10 25 0 05 for item in 6 6
添加到 ObjectSet 的对象的多态删除不会引发 ObjectSet.IListSource.GetList() 上的 IBindingList.ListChanged

概述描述简单运行时类型对象的多态移除derived from TEntity添加到ObjectSet
Pylint E0202 误报？或者这段代码是错误的？

我一直在研究一个带有属性的类但我们遇到了 pylint 的一个棘手问题 0 25 1 在下面的代码中我们定义了一个带有 python 2 6 中引入的属性的类然而皮林特抱怨说在 init method self aProperty
如何在C++中将第一个数字移动到数字的末尾？

这是代码 include
对密度曲线下方的区域进行阴影处理，以标记最高密度区间 (HDI)

我认为这应该很简单但尽管网上有大量信息我还是迷失了我的问题我有一个数据点向量我想为其绘制密度曲线然后为曲线下方的区域着色以表示最高密度区间 HDI 当然我正在努力实现这一目标ggplot2包特别是qplot 因为我的数据是向
Visual Studio 代码显示错误“找不到名称日期”

我正在开发一个基本的 Angular 项目Visual Studio代码版本1 19 2 作为我的 IDE 下面的代码运行良好但 VSC 似乎对此不满意当我使用时它显示错误new Date or JSON stringify 但最终结
将结构体数组转换为双精度数组[重复]

这个问题在这里已经有答案了我将 7 个患者的数据每个数据包含 19 个特征合并到一个结构中如下所示数据现在位于具有 19 个字段的 7x1 结构中我需要做什么才能将结构转换为双精度数组我需要将其用作 SVM 分类器的输入或者
我可以在 Eclipse 中从构造函数自动生成字段吗？

当我在 Eclipse 中编码时我喜欢尽可能地偷懒所以我经常输入类似这样的内容 myObject new MyClass myParam1 myParam2 myParam3 即使 MyClass 不存在它的构造函数也不存在单击几下
Symfony2 - 我应该把用户上传的文件放在哪里？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我是 Symfony 的新手我将用户上传的图像放在下面 web bundles mybundle images 目录但我觉得这不是一个好的做
如何在 Android 市场上发布应用程序更新？

我已经在 Android 市场上有一个应用程序现在我想上传该应用程序的更新我使用相同的包名称创建了新应用程序我增加了版本代码和名称我使用相同的密钥库签名等等现在我想知道如何发布更新我是否将更新作为单独的应用程序上传或者我还能
如何使用 jQuery 读取 CSS 文件

好的我有一个包含 jQuery 的 HTML 页面我有一个 CSS 文件里面有很多行我想阅读all来自外部 CSS 文件的给定元素的样式而不是内联样式我有以下代码看起来应该可以工作 var styleProperties va
C：检查命令行参数是否为整数？

签名isdigit int isdigit int c 签名atoi int atoi const char nptr 我只是想检查传递的命令行参数是否是整数这是 C 代码 include
获取 Magento 中的当前 URL 并显示一些内容

我正在尝试获取 Magento 中的当前 URL 并显示一些内容如果我当前位于该页面上到目前为止这就是我所做的并且有效 I am in the blog page 但是我不想在源代码中硬编码URL 因为如果我传输到另一台服务器我需
写入 JSON 文件时出现阶段失败 Spark FileAlreadyExistsException

我正在尝试以 JSON 格式将数据帧写入 s3 位置但是每当执行器任务失败并且 Spark 重试该阶段时它就会抛出FileAlreadyExistsException A 类似的问题 https stackoverflow com qu

写入 JSON 文件时出现阶段失败 Spark FileAlreadyExistsException

写入 JSON 文件时出现阶段失败 Spark FileAlreadyExistsException 的相关文章

随机推荐

热门标签