火花提交：--jars 不起作用

2024-01-17

我正在为 Spark Streaming 作业构建指标系统，在系统中，指标是在每个执行器中收集的，因此需要在每个执行器中初始化指标源（用于收集指标的类）。

指标源被打包在一个jar中，提交作业时，使用参数“--jars”将jar从本地发送到每个执行器，但是，执行器在jar到达之前就开始初始化指标源类，作为结果，它抛出类未找到异常。

看来如果执行者可以等到所有资源都准备好，问题就会解决，但我真的不知道该怎么做。

有人面临同样的问题吗？

PS：我尝试使用HDFS（将jar复制到HDFS，然后提交作业并让执行器从HDFS中的路径加载类），但失败了。我检查了源代码，似乎类加载器只能解析本地路径。

这是日志，你可以看到jar是在2016-01-15 18:08:07添加到classpath的，但是初始化是在2016-01-15 18:07:26开始的

信息 2016-01-15 18:08:07 org.apache.spark.executor.Executor：添加文件：/var/lib/spark/worker/worker-0/app-20160115180722-0041/0/./datainsights-metrics-source- assembly-1.0.jar 到类加载器

错误 2016-01-15 18:07:26 Logging.scala:96 - org.apache.spark.metrics.MetricsSystem：源类 org.apache.spark.metrics.PerfCounterSource 无法实例化

这是我使用的命令：

spark-submit --verbose \
 --jars /tmp/datainsights-metrics-source-assembly-1.0.jar \ 
 --conf "spark.metrics.conf=metrics.properties" \
 --class org.microsoft.ofe.datainsights.StartServiceSignalPipeline \
 ./target/datainsights-1.0-jar-with-dependencies.jar

我可以想到几个选项：-

创建一个 Fat Jar 文件，其中包括主类和依赖项。
如果依赖项仅由执行程序而不是驱动程序使用，那么您可以使用显式添加 jar 文件SparkConf.setJars(....)或者如果驱动程序也使用它，那么您也可以使用命令行选项--driver-class-path用于配置驱动程序类路径。

尝试使用以下参数在 Spark-default.conf 中配置它：-

spark.executor.extraClassPath=<classapth>
spark.executor.extraClassPath=<classapth>

无论你做什么，我都建议修复网络延迟，否则会损害 Spark 作业的性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

火花提交：--jars 不起作用的相关文章

为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location

随机推荐

修复 Twitter Bootstrap 中的按钮大小

I use 推特引导程序 https getbootstrap com 2 3 2 在我的网络应用程序中我有一张有很多按钮的桌子按钮的文本随着表行的当前状态而变化在 Ajax 请求响应之后我使用 Jquery 更改按钮文本我的问题
Rails - 在控制器中存储 cookie 并从 Javascript、Jquery 获取

是否可以在控制器中存储用户的 Cookie 或会话并通过 JS 或 Jquery 访问它来获取 cookie Session值在服务器上可用你可以这样设置它们在你的控制器中 http apidock com rails ActionCo
WPF - 自定义设计音量控制

我使用 WPF 已经有一段时间了我需要通过互联网创建以下控件但找不到合适的任何人都可以帮助如何实现此功能单击控件时值应该增加或减少我发现我可以使用音量控制或滑块但不清楚我应该使用什么谢谢期待我更喜欢使用进度条来显示此类内容
如何在 Visual Studio 中添加高优先级 TODO 注释？

添加这样的评论 TODO Refactor this code 在我可以查看的任务列表中创建一个任务等有一列标记为让您可以按优先级对这些任务进行排序如何设置特定任务的优先级任务的优先级取决于您用来标记它的关键字您可以通过转到工具
克隆 TypeScript 对象

我有一个打字稿课程 export class Restaurant constructor private id string private name string public getId string return this id p
如何从 tmux 会话获取 stdout 和 stderr？

我正在linux系统中编写一个示例python程序我在用tmux https linux die net man 1 tmux创建会话并在 tmux session 中执行另一个脚本我想将 stdout 和 stderr 从 tmux
Bash 复杂的管道依赖关系

I m trying to model a build concurrent pipeline in a single Bash script I know I can use other tools but at this point I
OpenGL：在两个元素之间画线

我需要在我创建的两个网格之间画一条线每个网格都与不同的模型矩阵相关联我一直在思考如何做到这一点我想到了 glMatrixMode GL MODELVIEW glLoadMatrixf first object model matrix
iframe 将 origin 发送为 null

我有一个 iframe 内容是从我正在使用的第三方库注入的该库正在注入用户需要提交的表单问题是当表单初始化时它们正在执行一些请求并且标头源作为空值发送这会导致问题因为它们的服务器不允许空值我尝试添加沙箱属性甚至尝试伪造调用
为什么 request.body 未定义？

我有一个 Node js 服务器其中包括 bodyparser 和所有内容 var express require express var dbcon require app db databaseconnection var bodyP
Java 相当于 .NET 的 DateTime.Parse？

我正在开发一个 java 类该类将与 Pervasive Data Profiler 一起使用该类需要检查日期字符串是否适用于 NET 的 DateTime Parse 是否有等效的类或第三方库可以为我提供与 NET 的 DateTim
如何从 MP3 的 URL 获取其长度？

如果我知道 MP3 文件的 URL 获取其长度比特率大小等最简单最快的方法是什么如何仅下载 MP3 的 ID3 标签部分来获取这些详细信息您需要查看 mp3 文件中的 ID3 标签除非您在其他地方跟踪您想要的元数据要专门获取文
为什么我的 SQL Server 审核触发器会扰乱来自 Access 的 OBDC 调用/刷新？

我在其中一个表上实现了一个审核触发器它基本上将旧记录和新记录以及日期和用户复制到名为 Audit 的表中我将在下面发布我的脚本问题是当我在 Access 中插入新记录然后按 Tab 进行切换时它会刷新并显示表中的第一条记录下面是
消除平均数值的子查询

Quest 查询选择以 Vancouver 开头且距离以 Vancouver 开头的所有位置的中心 5 分钟范围内的所有点例如 Vancouver South Fraser Vancouver Fairview 和Vancouver Ba
跨文件的 SQLAlchemy 类

我试图弄清楚如何将 SQLAlchemy 类分布在多个文件中但我一生都无法弄清楚如何做到这一点我对 SQLAlchemy 还很陌生所以如果这个问题很微不足道请原谅我考虑这 3 个类每个人都有自己的文件 A py from sqla
将 Eclipse 替换为 Sublime Text 2/3 for java

有没有人设法为他们的基于 java 的应用程序构建一种使用 Sublime Text 2 或 3 而不是 eclipse 的方法我们在 eclipse mac 中提供了 java 并支持 Maven 和 git 我们本身并不在 Eclip
如何理解重定位部分“.rela.plt”的字段

我试图了解 Linux 上共享库的动态链接给出重定位部分 rela plt 的以下转储 Offset Info Type Sym Value Sym Name Addend 000000373f68 0f8300000007 R X86
Silverlight AutoCompleteBox 大写输入

我需要在 Silverlight 4 应用程序的 AutoCompleteBox 中强制输入大写字母在 TextBox 中可以通过替换 KeyDown 事件上的 Text 属性来完成例如 control Text enteredCha
Internet Explorer 中的 JavaScript 故障排除工具

我大量使用 Firebug 和 Mozilla JS 控制台但时不时地会遇到仅 IE 的 JavaScript bug 这真的很难定位例如第 724 行错误当源 HTML 只有 200 行时我想要一个轻量级的 JS 工具 a la
火花提交：--jars 不起作用

我正在为 Spark Streaming 作业构建指标系统在系统中指标是在每个执行器中收集的因此需要在每个执行器中初始化指标源用于收集指标的类指标源被打包在一个jar中提交作业时使用参数 jars 将jar从本地发送到每个执行

火花提交：--jars 不起作用

火花提交：--jars 不起作用 的相关文章

随机推荐

热门标签

火花提交：--jars 不起作用的相关文章