Spark 作业在 YARN 模式下失败

2024-04-09

我有一个用 Scala 编写的 Spark 程序，它从 HDFS 读取 CSV 文件，计算新列并将其保存为 parquet 文件。我正在 YARN 集群中运行该程序。但每次我尝试启动它时，执行程序都会在某个时候失败并出现此错误。

您能帮我找出可能导致此错误的原因吗？

从执行者登录

16/10/27 15:58:10 WARN storage.BlockManager: Putting block rdd_12_225 failed due to an exception
16/10/27 15:58:10 WARN storage.BlockManager: Block rdd_12_225 could not be removed as it was not found on disk or in memory
16/10/27 15:58:10 ERROR executor.Executor: Exception in task 225.0 in stage 4.0 (TID 465)
java.io.IOException: Stream is corrupted
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:211)
    at org.apache.spark.io.LZ4BlockInputStream.read(LZ4BlockInputStream.java:125)
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:265)
    at java.io.DataInputStream.readInt(DataInputStream.java:387)
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.readSize(UnsafeRowSerializer.scala:113)
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.<init>(UnsafeRowSerializer.scala:120)
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3.asKeyValueIterator(UnsafeRowSerializer.scala:110)
    at org.apache.spark.shuffle.BlockStoreShuffleReader$$anonfun$3.apply(BlockStoreShuffleReader.scala:66)
    at org.apache.spark.shuffle.BlockStoreShuffleReader$$anonfun$3.apply(BlockStoreShuffleReader.scala:62)
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at org.apache.spark.util.CompletionIterator.hasNext(CompletionIterator.scala:32)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:370)
    at org.apache.spark.sql.execution.columnar.InMemoryRelation$$anonfun$3$$anon$1.next(InMemoryRelation.scala:118)
    at org.apache.spark.sql.execution.columnar.InMemoryRelation$$anonfun$3$$anon$1.next(InMemoryRelation.scala:110)
    at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:214)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
    at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:47)
    at org.apache.spark.scheduler.Task.run(Task.scala:86)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: net.jpountz.lz4.LZ4Exception: Error decoding offset 15385 of input buffer
    at net.jpountz.lz4.LZ4JNIFastDecompressor.decompress(LZ4JNIFastDecompressor.java:39)
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:205)
    ... 41 more

EDIT :

有使用的代码

var df = spark.read.option("header", "true").option("inferSchema", "true").option("treatEmptyValuesAsNulls", "true").csv(hdfsFileURLIn).repartition(nPartitions)
df.printSchema()
df = df.withColumn("ipix", a2p(df.col(deName), df.col(raName))).persist(StorageLevel.MEMORY_AND_DISK)
df.repartition(nPartitions, $"ipix").write.mode("overwrite").option("spark.hadoop.dfs.replication", 1).parquet(hdfsFileURLOut)

用户函数 a2p 只是接受两个 Double 并返回另一个 double

我需要说的是，这对于相对较小的 CSV (~1Go) 效果很好，但对于较大的 CSV (~15Go) 每次都会发生此错误

编辑2：按照建议，我禁用了重新分区并使用了 StorageLevel.DISK_ONLY

这样我就不会因为异常而导致 Putting block rdd_***** failed，但仍然存在与 LZ4 相关的异常（流已损坏）：

16/10/28 07:53:00 ERROR util.Utils: Aborting task
java.io.IOException: Stream is corrupted
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:211)
    at org.apache.spark.io.LZ4BlockInputStream.available(LZ4BlockInputStream.java:109)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:353)
    at java.io.DataInputStream.read(DataInputStream.java:149)
    at org.spark_project.guava.io.ByteStreams.read(ByteStreams.java:899)
    at org.spark_project.guava.io.ByteStreams.readFully(ByteStreams.java:733)
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.next(UnsafeRowSerializer.scala:127)
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.next(UnsafeRowSerializer.scala:110)
    at scala.collection.Iterator$$anon$12.next(Iterator.scala:444)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
    at org.apache.spark.util.CompletionIterator.next(CompletionIterator.scala:30)
    at org.apache.spark.InterruptibleIterator.next(InterruptibleIterator.scala:43)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply$mcV$sp(WriterContainer.scala:254)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252)
    at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1345)
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContainer.scala:258)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
    at org.apache.spark.scheduler.Task.run(Task.scala:86)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: net.jpountz.lz4.LZ4Exception: Error decoding offset 12966 of input buffer
    at net.jpountz.lz4.LZ4JNIFastDecompressor.decompress(LZ4JNIFastDecompressor.java:39)
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:205)
    ... 25 more

编辑3：我通过删除第二个重新分区（使用 ipix 列重新分区的分区）成功地启动了它，没有任何错误，我将进一步查看此方法的文档

编辑4：这很奇怪，有时一些执行器会因分段错误而失败：

#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0x00007f48d8a47f2c, pid=3501, tid=0x00007f48cc60c700
#
# JRE version: Java(TM) SE Runtime Environment (8.0_102-b14) (build 1.8.0_102-b14)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.102-b14 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# J 4713 C2 org.apache.spark.unsafe.types.UTF8String.hashCode()I (18 bytes) @ 0x00007f48d8a47f2c [0x00007f48d8a47e60+0xcc]
#
# Core dump written. Default location: /tmp/hadoop-root/nm-local-dir/usercache/root/appcache/application_1477580152295_0008/container_1477580152295_0008_01_000006/core or core.3501
#
# An error report file with more information is saved as:
# /tmp/hadoop-root/nm-local-dir/usercache/root/appcache/application_1477580152295_0008/container_1477580152295_0008_01_000006/hs_err_pid3501.log
#
# If you would like to submit a bug report, please visit:
#   http://bugreport.java.com/bugreport/crash.jsp
#

我检查了内存，我的所有执行器总是有足够的可用内存（至少 6Go）

编辑4：所以我用多个文件进行了测试，执行总是成功，但有时一些执行程序失败（出现上述错误）并由 YARN 再次启动

您使用的是哪个版本的 lz4-java？这可能与 1.1.2 版本中修复的问题有关 - 请参阅此错误报告 https://github.com/jpountz/lz4-java/issues/13

另外，我对你的函数 a2p 很好奇。理想情况下，它应该采用两个 Column 对象作为输入，而不仅仅是 Doubles（除非您将其注册为 UDF）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

apachespark

HDFS

hadoopyarn

Spark 作业在 YARN 模式下失败的相关文章

Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Play 框架 2.0：在 Http.Context 中存储值

我正在尝试在 Play 框架中的 scalaquery 中实现基于请求的会话我使用 scalaquery 创建一个会话并尝试将其存储在当前的 http 上下文中如下所示 def withTransaction A bp BodyP
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
演员邮箱溢出。斯卡拉

我目前正在与 scala 的两位演员合作一 producer 产生一些数据并将其发送到parcer 生产者发送一个HashMap String HashMap Object List Int 通过消息以及this标记发件人 parcer
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
加特林负载测试期间编译错误

我正在尝试编写一个模拟并且希望能够运行该模拟我在尝试 mvn gatling execute 时遇到错误我的 pom 有以下依赖项
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
Scala：尝试 .getOrElse 与 if/else

我是一名相当新的 Scala 开发人员我是一名经验丰富的 Java 开发人员到目前为止我一直很喜欢 Scala 的简单性我真的很喜欢函数式结构而且它们常常迫使你编写更简洁的代码然而最近我注意到由于舒适性和简单性我最终使用了在
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Scala repl 抛出错误

当我打字时scala在终端上启动 repl 它会抛出此错误 scala gt init error error while loading AnnotatedElement class file usr lib jvm java 8 ora

随机推荐

使用活动管理配置设置活动管理命名空间

我正在使用带有设计的活动管理并且尝试为所有活动管理路由设置命名空间在 active admin rb 中我将 default namespace 设置为 config default namespace abc 123 在我的路线中
设置 ~/.conda/pkgs 目录的路径

在主目录空间非常有限的集群上工作因此我想将 conda pkgs 文件夹的主目录默认设置为另一个目录但我似乎不知道如何执行此操作我尝试过将 condarc 文件与 pkg dirs 一起使用 channels conda forge
停止服务后如何从传感器取消注册侦听器？

我正在创建一个应用程序该应用程序在按下开始按钮时启动服务并在按下停止按钮时停止服务在服务中我为传感器 ACCELEROMETER 注册了一个侦听器以便获得 x y z 轴的加速计值但是当我停止应用程序并从传感器取消注册侦
如何使用 boost::log::BOOST_TRIVIAL_LOG 更改默认格式？

boost log 看起来真的很强大它提供了一个用于简单日志记录的 BOOST LOG TRIVIAL 宏但如何更改默认格式呢它默认打印时间戳但我不想要它你有什么主意吗似乎唯一的方法是重新定义一个新的接收器并将其添加到核心然后
使用 if 语句时，当前上下文中不存在该名称[重复]

这个问题在这里已经有答案了我想用用户给出的小数位数来计算 Pi 当输入为 0 时变量 piNumber 应设置为 3 而不是 3 以便输出没有无用的逗号这有效 static string PiNumberFinder int amou
如何在 PySpark Pipeline 中使用 XGboost

我想更新我的 pyspark 代码在pyspark中它必须将基础模型放入管道中即办公室演示 http spark apache org docs latest ml pipeline html管道使用逻辑回归作为基本模型但是似乎无
CLion：调试由 python 生成的 C++ 子进程

CLion 有没有办法调试从 Python 脚本运行的 C 程序subprocess Popen 我可以设置断点并调试Python程序如果直接运行C 程序我可以设置断点并调试它但是当程序从Popen启动时我无法触发C 断点我尝试在
如何在unix中查找字符串之间包含多个空格的行？

我有像这样的行 1 Harry says hi 2 Ron says bye 3 Her mi oh ne is silent 4 The above sentence is weird 我需要一个 grep 命令来检测第三行这就是我正在
矩阵求逆 R

我想求逆方形对称正定矩阵我知道有两个功能solve and chol2inv 在 R 中但他们的结果是不同的我需要知道为什么会发生这种情况谢谢以下是计算矩阵逆的几种方法包括solve and chol2inv gt A lt m
默认情况下启用或禁用菜单项。为什么？

我有一些遗留代码由于某种原因菜单项在启动时被启用或禁用我的问题是如何有没有办法在不调用 EnableMenuItem 函数的情况下执行此操作 MFC 有没有办法做与资源设置所说相反的事情我也不明白为什么当最后一个子窗口关闭时当
页面上或 .js 脚本中是否可以有多个 jQuery 就绪事件？

我注意到 jQuery 就绪事件和函数在我的大部分 JavaScript 中只使用了一次但是我想知道是否可以多次使用就绪事件例如是否可以在我的主 html 代码中的就绪事件函数调用中调用函数然后在 js 文件中的另一个就绪事件函数
在 Woocommerce 中下订单后，将值插入自定义表中

我需要插入到我的自定义表中许可证表 username order id Quantity This needs to be populated when an order is placed Username customer s emai
这段 1988 年的 C 代码有什么问题？

我正在尝试编译 C 编程语言 K R 一书中的这段代码它是 UNIX 程序的基本版本wc include
尝试通过我的新域访问 WordPress with LiteSpeed 时显示 404

我已经在 Digital Ocean Droplet 中创建了一个带有开放 LiteSpeed 缓存的 WordPress 实例如果我在设置常规站点和 WordPress URL 中配置了 IP 则它可以正常工作但是当我添加我的
SQL：枚举每个组内返回的行

假设我有一个SELECT 返回某物的查询像这样 role name MANAGER Alice WORKER Bob WORKER Evan WORKER John MANAGER Max WORKER Steve 是否可以添加另一列来枚
从 Git 存储库安装 Python 包后，某些文件夹丢失

我想从以下存储库安装软件包https github com geomin django countria https github com geomin django countria 我正在使用的命令是pip install git gi
Xcode 存档调试条错误

我正在尝试将大型遗留 C 库与 iOS 应用程序集成我们能够在设备上构建并运行但无法存档该应用程序归档失败并出现以下错误命令 Applications Xcode app Contents Developer Toolchains
关闭依赖项的默认功能

我有一个依赖链最终依赖于可选地在已弃用的库上具体来说我想使用间接依赖于 rustc serialize 的 nalgebra 如下所示 nalgebra gt alga gt num complex gt 可选默认值 rustc se
与多处理错误的另一个混淆是，“模块”对象没有属性“f”

我知道之前已经回答过这个问题但似乎直接执行脚本 python filename py 不起作用我在 SuSE Linux 上安装了 Python 2 6 2 Code usr bin python coding utf 8 from m
Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出

Spark 作业在 YARN 模式下失败

Spark 作业在 YARN 模式下失败 的相关文章

随机推荐

热门标签

Spark 作业在 YARN 模式下失败的相关文章