Spark 作业失败，因为 HDFS 正在缓存 jar

2024-01-03

我将 Scala / Spark jar 上传到 HDFS 以在我们的集群上测试它们。跑步后，我经常意识到需要做出改变。因此，我在本地进行更改，然后将新 jar 推送回 HDFS。然而，经常（并非总是）当我这样做时，hadoop 会抛出一个错误，本质上是说这个 jar 与旧的 jar 不一样（废话）。

我尝试清除垃圾箱、.staging 和 .sparkstaging 目录，但这没有任何作用。我尝试重命名罐子，这有时会起作用，有时则不起作用（我首先必须这样做仍然很荒谬）。

有谁知道为什么会发生这种情况以及如何防止它发生？谢谢你的帮助。如果有帮助的话，这里是一些日志（编辑掉一些路径）：

应用程序application_1475165877428_124781由于AM失败了2次 appattempt_1475165877428_124781_000002 的容器已退出 exitCode: -1000 有关更详细的输出，请检查应用程序跟踪页：http://examplelogsite/ http://examplelogsite/然后，单击每个日志的链接试图。诊断：资源 MYJARPATH/EXAMPLE.jar 在 src 上已更改文件系统（预期为 1475433291946，实际为 1475433292850 java.io.IOException：资源 MYJARPATH/EXAMPLE.jar 在 src 上更改文件系统（预期为 1475433291946，实际为 1475433292850 org.apache.hadoop.yarn.util.FSDownload.copy(FSDownload.java:253) 在 org.apache.hadoop.yarn.util.FSDownload.access$000(FSDownload.java:61) 在 org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:359) 在 org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:357) 在 java.security.AccessController.doPrivileged（本机方法）处 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) 在 org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:356) 处 org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:60) 在 java.util.concurrent.FutureTask.run(FutureTask.java:266) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 在 java.util.concurrent.FutureTask.run(FutureTask.java:266) 处 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:745) 这次尝试失败。失败应用程序。

我以前没有见过退出代码，所以me，它没有说什么，我建议你检查日志，如下所示：

yarn logs -applicationId <your_application_ID>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

HDFS

Spark 作业失败，因为 HDFS 正在缓存 jar 的相关文章

Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

提示用户从 Dropbox 下载时保存

我想要一个从 Dropbox 下载文件的链接该链接会提示用户而不是在浏览器中显示该文件这可能需要将内容处置标头设置为附件我目前正在使用 Dropbox 媒体 URL 如下所述 https www dropbox com develo
C2039：类不是命名空间的成员

法师接口 Context h pragma once include
onResume 手机屏幕锁定时被反复呼叫

看来如果手机屏幕锁定时某个 Activity 位于前台广播事件和或唤醒锁将导致该 Activity 的 onResume 被调用无论它们是否适用于您的应用程序即使您不以任何方式与手机交互也会发生这种情况不解锁它不触摸它不做
Android 上的 SQLite 数据库有大小限制吗？ [复制]

这个问题在这里已经有答案了我想将 db 文件内部存储在设备 SD 卡中并希望从中访问数据有人可以告诉我们在我们的 Android 应用程序中可以检索的 db 文件的最大大小吗没有任何内存异常 SQLite 的最大大小为 10MB 到
类型类与代数数据类型？

我经常开始考虑要定义的类型类方面的问题并意识到当我开始编码时我不需要类型类并且可以使用代数数据类型来解决我的问题这看起来更简单因此我想知道什么时候需要类型类据我了解类型类是表示某些类型存在某些函数的一种方式例如当类型 My
迭代 openpyxl 中的只读工作簿中的列

我有一个有点大的 xlsx 文件 19 列 5185 行我想打开文件读取一列中的所有值对这些值执行一些操作然后在同一工作簿中创建一个新列并写出修改后的值因此我需要能够在同一个文件中读取和写入我原来的代码是这样做的 def re
带有 SSL 的 Android 应用程序

我知道这个特定的主题被问过很多次但不幸的是就我而言它们都不起作用在过去的几天里我试图让它恢复正常状态但每次都失败所以我终于来这里询问我的服务器上有一个带有自签名证书的网络服务如果我在浏览器中输入地址我就可以访问 wsdl
使用 MongoDB 进行单元测试

我选择的数据库是 MongoDB 我正在编写一个数据层 API 来从客户端应用程序中抽象实现细节也就是说我本质上提供了一个公共接口充当 IDL 的对象我正在以 TDD 方式测试我的逻辑在每次单元测试之前 Before调用方法来创建
Grep 最后一场比赛的前后行

我正在搜索一些日志我想 grep 最后一个匹配项及其上方和下方的几行 grep A10 B10 searchString my log将打印前后 10 行的所有匹配项grep searchString my log tail n 1将打印
以编程方式从 Kendo Grid 中选择一行

我有一个网格其中一列是一个模板其中有一个复选框 Name grid Columns columns gt columns Bound c gt c Id ClientTemplate
PhoneGap - Android - 如何将相机捕获的图像保存在SD卡中

我是 PhoneGap Android 开发人员的新手我正在使用phonegap 在android 中制作一个应用程序我想从设备相机拍照然后在从设备拍摄图像后将其显示在屏幕上并将捕获的图像存储在 SD 卡中你能告诉我该怎么做吗古
二进制轮无法使用twine上传到pypi上

我正在尝试从 github actions 上传适用于 linux 和 windows 的 Pypi 包使用linux我得到这个结果 Binary wheel xxx cp36 cp36m linux x86 64 whl has an
如何使用 Rails 在浏览器中查看电子邮件视图

我正在为我的 Rails 应用程序处理电子邮件目前我知道查看电子邮件的唯一方法是将其发送给自己如何让 views 文件夹下的 notifications 文件夹中的 daily summary html haml 在浏览器中呈现我想我
SQL Server：查询循环

我需要获取所有应用程序数据库并且我已经能够通过 select name from sys database where database id gt 6 现在我需要运行以下查询 select User FirstName User Na
MVC 4 中的自定义成员资格提供程序

我刚开始学习MVC4 作为第一步我需要执行登录因为自定义数据库在数据库中只有三个角色真的有必要实施自定义会员资格提供商吗我对此提出疑问因为我正在阅读这篇文章而他正在采取另一种方式 http patrickdesjardins c
默认参数中的 C++ new 运算符及其副作用

我有一个关于 C 中默认参数的问题如果我有这样的功能 int foo int obj new Int 4 Stuff with obj 当然现在整数仅用作示例但问题是我是否要为参数提供一个值如下所示 int x 2 foo x 将表
git 的源代码树修复作为限电的一部分，密码身份验证被暂时禁用。请改用个人访问令牌[重复]

这个问题在这里已经有答案了仅供参考这是专门针对 sourcetree 的我在拉入 sourcetree 时遇到此错误昨天工作得很好但突然出现此错误 git c diff mnemonicprefix false c core qu
iPhone 崩溃后要求用户发送崩溃日志

某些应用程序在崩溃后重新启动时询问用户是否要通过电子邮件发送崩溃日志他们是怎么做到的他们必须在崩溃时记录日志并读取该文件并要求用户发送它如果它不为空是否有一个框架或开源项目可以集成来做到这一点看看批判主义 www critterc
当按钮事件中 window.location 更改时，IE9 onbeforeunload 被调用两次...最小再现

我一直在锤击这个问题但一无所获我有一个取消按钮执行 window location 404 htm 当点击时 onbeforeunload 处理程序会触发两次但前提是用户在第一个对话框中单击留在此页面正常的导航页面刷新转到主
Spark 作业失败，因为 HDFS 正在缓存 jar

我将 Scala Spark jar 上传到 HDFS 以在我们的集群上测试它们跑步后我经常意识到需要做出改变因此我在本地进行更改然后将新 jar 推送回 HDFS 然而经常并非总是当我这样做时 hadoop 会抛出一个错误

Spark 作业失败，因为 HDFS 正在缓存 jar

Spark 作业失败，因为 HDFS 正在缓存 jar 的相关文章

随机推荐

热门标签