Spark工作人员无法在EC2集群上找到JAR

2023-11-22

我正在使用 Spark-ec2 运行一些 Spark 代码。当我将 master 设置为 “本地”，那么它运行良好。但是，当我将 master 设置为 $MASTER 时，工作人员立即失败，并出现 java.lang.NoClassDefFoundError 课程。 Workers 连接到 master，并显示在 UI 中，并尝试运行任务；但一旦加载第一个依赖类（位于程序集 jar 中），就会立即引发该异常。

我已经使用 sbt-assemble 制作了一个带有类的 jar，并使用确认 jar tvf 类在那里，并设置 SparkConf 进行分发课程。 Spark Web UI 确实显示了程序集 jar 添加到类路径：http://172.x.x.x47441/jars/myjar- assembly-1.0.jar

看来，尽管 myjar- assembly 包含类，并且正在添加到集群中，但它还没有到达工人。我该如何解决？（需要手动复制jar文件吗？如果是这样，到哪个目录？我认为 SparkConf 的要点是添加 jars 是自动执行此操作的）

我的调试尝试表明：

程序集 jar 正在复制到 /root/spark/work/app-xxxxxx/1/（通过ssh到worker并搜索jar来确定）
但是，该路径不会出现在工作线程的类路径中（根据日志确定，日志显示 java -cp 但缺少该文件）

所以，看来我需要告诉 Spark 添加程序集的路径 jar 到工人的类路径。我怎么做？还是另有罪魁祸首？（我花了几个小时尝试调试这个但无济于事！）

注意：EC2 特定答案，而不是一般 Spark 答案。只是试图完善一年前提出的问题的答案，这个问题具有相同的症状，但往往有不同的原因，并且困扰了很多人。

如果我正确理解了这个问题，那么您会问：“我需要手动复制 jar 文件吗？如果需要，复制到哪个目录？”你说，“并设置 SparkConf 来分发类”，但你不清楚这是通过 Spark-env.sh 还是 Spark-defaults.conf 完成的？因此，做出一些假设，主要的一个是您正在集群模式下运行，这意味着您的驱动程序在其中一个工作人员上运行，而您事先不知道是哪一个......然后......

答案是肯定的，到类路径中指定的目录。在 EC2 中，唯一的持久数据存储是 /root/persistent-hdfs，但我不知道这是否是一个好主意。

在 EC2 上的 Spark 文档中我看到这一行:

To deploy code or data within your cluster, you can log in and use
the provided script ~/spark-ec2/copy-dir, which, given a directory 
path, RSYNCs it to the same location on all the slaves.

SPARK_CLASSPATH

我不会使用 SPARK_CLASSPATH 因为它从 Spark 1.0 开始已被弃用，所以一个好主意是在 $SPARK_HOME/conf/spark-defaults.conf 中使用它的替代品：

spark.executor.extraClassPath /path/to/jar/on/worker

这应该是有效的选项。如果您需要即时执行此操作，而不是在conf文件中执行此操作，建议是“./spark-submit with --driver-class-path to Expand the driver classpath”（来自 Spark 文档关于spark.executor.extraClassPath并参阅另一个来源的答案末尾）。

但是......你没有使用spark-submit......我不知道它在EC2中是如何工作的，查看脚本我没有弄清楚EC2让你在命令行上提供这些参数。您提到您已经在设置 SparkConf 对象时执行了此操作，因此如果这对您有用，请坚持下去。

我在 Spark 年中看到这是一个非常古老的问题，所以我想知道你是如何解决它的？我希望这对某人有帮助，我在研究 EC2 的细节方面学到了很多东西。

我必须承认，作为对此的限制，它让我感到困惑Spark 文档为spark.executor.extraClassPath它说：

用户通常不需要设置此选项

我认为他们的意思是大多数人会通过驱动程序配置选项获取类路径。我知道spark-submit的大多数文档都让它应该像脚本处理在集群中移动代码一样，但我认为这只是在“独立客户端模式”下，我假设你没有使用它，我假设EC2必须处于“独立”模式集群模式。”

有关 SPARK_CLASSPATH 弃用的更多/背景：

更多背景让我思考 SPARK_CLASSPATH此存档线程已被弃用。 and 这一条，穿过另一条线 and 这是关于使用 SPARK_CLASSPATH 时出现的 WARN 消息:

14/07/09 13:37:36 WARN spark.SparkConf:
SPARK_CLASSPATH was detected (set to 'path-to-proprietary-hadoop-lib/*:
/path-to-proprietary-hadoop-lib/lib/*').
This is deprecated in Spark 1.0+.

Please instead use:
 - ./spark-submit with --driver-class-path to augment the driver classpath
 - spark.executor.extraClassPath to augment the executor classpath

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonec2

apachespark

Spark工作人员无法在EC2集群上找到JAR 的相关文章

Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
使用 javascript 从亚马逊 URL 中抓取 ASIN

假设我有一个像这样的亚马逊产品 URL http www amazon com Kindle Wireless Reading Display Generation dp B0015T963C ref amb link 86123711 2
尝试使用 AWS CLI 运行 ECS 任务时出现资源：内存错误

我正在尝试使用 AWS ECS 和 docker 设置 CI 我使用 Codeship 作为 CI 工具但这并不重要我在 shell 脚本中执行以下步骤使用我的 Dockerfile 构建镜像将镜像推送到ECS存储库将task d
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
如何通过 SSH 启动进程，使其保持运行？

我有三个文件 Monitor sh 它启动 python 脚本 sudo python webCheck sudo python apiCheck 以及其他的 webCheck 和 apiCheck 它应该在我关闭终端后在后台运行它无限循
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
JMeter 负载服务器会影响我的结果吗？

我正在使用亚马逊 EC2 实例大型作为使用 1 000 个线程的负载服务器来运行 JMeter 测试负载服务器CPU利用率稳定在90 左右内存利用率稳定在70 是否存在关于负载服务器在什么时候没有足够资源内存或 CPU 而导致负载
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift

随机推荐

Unicode URL 对 SEO 有多友好？

正如标题所说包含 Unicode 字符的 URL 对 SEO 有多友好 Edit 为了澄清我的意思是包含非 ASCII 字符但有效 Unicode 的 URL 如果我是 Google 其他搜索引擎的权威我不会认为 unicode UR
在圆上生成点

import random import math import matplotlib pyplot as plt def circle x y for i in range 0 1000 angle random uniform 0 1
如何“覆盖”[] 以接受 C++ 中的两个参数？

我正在尝试在 C 中创建一个位向量类来对某些硬件进行建模在我所知道的大多数 HDL 硬件描述语言中特定位的引用如下 my vector bit position 子向量的引用如下 my vector msb lsb or my vec
在wpf中绑定颜色的R G B属性

我有一个自定义类 FavoriteColor 它具有三个属性 R G and B 现在我想绘制一个矩形并用这些 R G 和 B 值填充它使用数据绑定我在 xaml 中尝试了以下代码片段但出现了编译时错误
限制浏览器窗口的弹性框高度（目前它溢出导致垂直滚动）

我正在尝试开发一个适合浏览器窗口大小的应用程序菜单的高度应适合父级的 100 而不是屏幕的 100 高度我有这个 Header flex Menu 1
Amazon Web 服务和 ubuntu 10.04 ec2 实例

我已经创建了 ubuntu 10 04 ec2 映像现在我需要在我的实例上安装 tomcat apache 和 jdk6 但每当我使用该命令时sudo apt get install sun java6 jdk or sudo apt g
使用 Express 命名空间调用两次中间件的 Express 请求

节点 js v0 10 15 包 json dependencies express 3 3 5 express namespace 0 1 1 应用程序咖啡 app module exports express server http c
当内容长度在 4013-8092 个字符之间时，Google Cloud Run 网站会超时。到底是怎么回事？

此问题发生在 Nginx 和 PHP FPM 提供的纯 PHP 文件上我在使用 Symfony 开发网站时偶然发现了这个问题但有问题的内容长度范围是 3702 15965 我想知道为什么它与普通 PHP 不同到目前为止我尝试过的超时
“严格使用”； + jQuery.getScript() = 脚本无法导出到全局命名空间

假设我有以下脚本名为include strict js 执行后我应该有window global1定义 use strict var globalVar alert typeof window globalVar 但是如果我将它从 jav
Paypal：订单 API 与付款 API，以及寻找更好的文档

我完全迷失在 PayPal 的 API 文档中我一直在使用订单 API 和 PayPal Checkout SDK 尝试为项目设置付款在尝试破译 Orders v2 API 参考时为了使用对订单先前授权的总数进行多次捕获我发现了一堆
max和fmax的区别（跨平台编译）

在 Xcode 中可以正常编译 float falloff fmin 1 0 fmax 0 0 distanceSqrd cRadius 但是在 Visual Studio 2010 中它出错了我必须使用 max 而不是 fmax di
里氏替换原则是否也适用于实现接口的类？

1 LSP是否也适用于接口这意味着我们应该能够使用实现特定接口的类并仍然获得预期的行为 2 如果确实如此那么为什么对接口进行编程被认为是一件好事顺便说一句我知道对接口进行编程会增加松散耦合如果反对使用继承的主要原因之一是由于不使用
如何在散点图中可视化非线性关系

我想直观地探索两个变量之间的关系这种关系的函数形式在密集散点图中不可见如下所示如何在Python中的散点图中添加低平滑度或者您还有其他建议来直观地探索非线性关系吗我尝试了以下方法但它无法正常工作借鉴来自米歇尔德胡恩 impo
Safari 在输入焦点上出现不需要的自动滚动到顶部

我有这个页面 div class app div class main panel div div
仅当满足条件时才从 ConcurrentQueue 出列

如何使 a 的下一个元素出列ConcurrentQueue仅当满足某些条件时例如如果下一个要出队的项目满足特定条件则将其出队否则将其保留本质上是一个 DequeueIf or TryDequeueIf method Example
如何在 Android 上使用 facebook 测试用户

我需要使用来自 android 的 facebook 测试用户的帮助我正在使用 facebook android sdk 我需要能够以测试用户身份登录并执行诸如发布到流之类的操作我不想使用与此应用程序关联的开发者帐户因为它是我的个人帐
Pandas - 图像到 DataFrame

我想将 RGB 图像转换为 DataFrame 以便获得每个像素的坐标及其 RGB 值 x y red green blue 0 0 0 154 0 0 1 1 0 149 111 0 2 2 0 153 0 5 3 0 1 154 0 9
Fragment 到 Activity 通信的 Android 最佳实践

我是 Android Fragment 的新手正在尝试学习 Fragment 到 Activity 的通信 Android 中用于 Fragment 到 Activity 通信的更好方法最佳实践是什么假设我有 FragmentS 和
MarshalJSON 无需同时将所有对象存储在内存中

我想用json Encoder对大量数据流进行编码而无需一次将所有数据加载到内存中 I want to marshal this t struct Foo string Bar is a stream of objects I don t
Spark工作人员无法在EC2集群上找到JAR

我正在使用 Spark ec2 运行一些 Spark 代码当我将 master 设置为本地那么它运行良好但是当我将 master 设置为 MASTER 时工作人员立即失败并出现 java lang NoClassDefFoun

Spark工作人员无法在EC2集群上找到JAR

Spark工作人员无法在EC2集群上找到JAR 的相关文章

随机推荐

热门标签