Spark应用程序状态中的FAILED和ERROR有什么区别

2024-01-11

我正在尝试创建已提交的 Spark 应用程序的状态图。当应用程序被视为失败时,我有点迷失了。

各州来自这里:https://github.com/apache/spark/blob/d6dc12ef0146ae409834c78737c116050961f350/core/src/main/scala/org/apache/spark/deploy/master/DriverState.scala https://github.com/apache/spark/blob/d6dc12ef0146ae409834c78737c116050961f350/core/src/main/scala/org/apache/spark/deploy/master/DriverState.scala


这个阶段非常重要,因为当涉及到Big Data,Spark 很棒,但是让我们面对现实吧,我们还没有解决问题!


当任务/作业失败时,Spark 会重新启动它(回想一下,Spark 提供的主要抽象 RDD 是一个有弹性的分布式数据集,这不是我们在这里寻找的,但它会给出直觉)。

我使用 Spark 1.6.2,当标记为 FAILED 时,我的集群会重新启动作业/任务 3 次。

例如,我最近的一项工作必须重新启动整个阶段:

在集群/应用程序中,可以看到尝试 ID,这里应用程序正在进行第三次也是最后一次尝试:

如果该尝试被标记为FAILED(无论出于何种原因,例如内存不足、DNS 错误、GC 分配内存、磁盘故障、节点未响应 4 个心跳(可能已关闭)等),然后 Spark 重新启动作业。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark应用程序状态中的FAILED和ERROR有什么区别 的相关文章

随机推荐