Spark fat jar 在 YARN 上运行多个版本

2024-03-27

我有一个旧版本的 Spark 设置和 YARN，我不想删除它，但仍然想使用较新的版本。我找到了一个couple https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Multiple-Spark-version-on-the-same-cluster/td-p/39880帖子提到如何使用胖罐来实现这一点。

Many https://stackoverflow.com/questions/16222748/building-a-fat-jar-using-maven SO posts https://stackoverflow.com/questions/30414782/proper-way-to-make-a-spark-fat-jar-using-sbt指向maven（官方支持）或sbt来构建一个fat jar，因为它不能直接用于download https://spark.apache.org/downloads.html。似乎有多个插件可以使用 maven 来完成此操作：maven-assemble-plugin、maven-shade-plugin、onejar-maven-plugin 等。

但是，我不知道我是否真的需要一个插件，如果需要，需要哪个插件以及具体如何使用它。我尝试使用“build/mvn”和“build/sbt”直接编译github源代码，但“spark- assembly_2.11-2.0.2.jar”文件只有283字节。

我的目标是以与上述类似的方式使用新版本的 fat jar 运行 pyspark shellhere https://stackoverflow.com/a/30233841.

从spark版本2.0.0开始，不再支持创建far jar，您可以在以下位置找到更多信息Spark 2.0.0 中我们还需要制作一个 fat jar 来提交作业吗？ https://stackoverflow.com/questions/38868699/do-we-still-have-to-make-a-fat-jar-for-submitting-jobs-in-spark-2-0-0

在您的情况下（在 YARN 上运行）推荐的方法是在 HDFS 上创建包含 Spark 内容的目录jars/目录并将该路径添加到spark-defaults.conf:

spark.yarn.jars    hdfs:///path/too/jars/directory/on/hdfs/*.jar

然后，如果您运行 pyspark shell，它将使用以前上传的库，因此它的行为与 Spark 1.X 中的 fat jar 完全相同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark fat jar 在 YARN 上运行多个版本的相关文章

如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
java.lang.NoClassDefFoundError：HttpSessionListener

我正在尝试部署一场我没有编写的战争但我在日志中收到此错误 java lang NoClassDefFoundError HttpSessionListener 我知道 HttpSessionListener 位于servlet api j
如何在流中收集到TreeMap中？

我有两个Collectors groupingBy在流中我需要收集所有信息TreeMap 我的代码 Map
使用 Gson 序列化时如何公开类名

我的场景非常复杂但总结如下我试图了解编译器的源代码并了解每个 AST 节点代表什么我正在生成不同程序的 AST 的 JSON 序列化然后检查可视化的 JSON 输出它工作得很好除了一个问题是在 Gson 中生成的 JSON 数
Jackson Json 将对象反序列化为列表

我正在使用 Spring 的 Web 服务RestTemplate并反序列化Jackson 在来自服务器的 JSON 响应中其中一个字段可以是对象或列表这意味着它可以是 result or result 有没有办法通过对我要反序列化的类
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Selenium - 保存网站，包括所有图像、css、dom

我想使用 firefox 或 chrome 访问带有 selenium 的页面当页面加载时我想从页面下载所有图像 css dom 我想存储每张图像就像我在其中找到它们一样 chrome gt Tools gt Development
可以向 @ManyToMany Hibernate 额外表添加额外字段吗？

我有这两类表 Entity Table name course public class Course Id Column name courseid private String courseId Column name coursen
无法启动组件 [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/LabWebServletHibernate]]

当使用 eclipse neon 1 在 tomcat 8 上运行应用程序时我收到此错误它使用 spring 4 3 3 hibernate 5 2 4 和 maven 嚴重 A child container failed durin
如何使用 UUID 生成唯一的正 Long

我需要为我的数据库主键列生成唯一的长 ID 我以为我可以用UUID randomUUID getMostSignificantBits 但有时它也会产生一些负多头这对我来说是个问题是否可以从 UUID 中仅生成正长将会有数十亿个条目
在 Java 中打开现有文件并关闭它。

是否可以在java中打开一个文件附加数据并关闭多次例如 psuedocode class variable declaration FileWriter writer1 new FileWriter filename fn1 writer
如何在 Spring Boot 中创建 Apache POI Excel 视图配置

当我想使用 Spring Boot Web 将数据导出到 Excel 时遇到问题我使用 Thymeleaf 作为模板引擎由 Spring Boot 自动配置但是当我在附加配置中添加 XmlViewResolver 时由 XmlVie
EclipseLink 2.7.0 和 JPA API 2.2.0 - 签名不匹配

当运行由maven构建的具有以下依赖项的项目时
为什么jdk中没有ConcurrentLinkedHashMap类？

这个问题直接接着问从我之前的问题来看 https stackoverflow com q 12299731 1527084 我想我的第二个问题的答案是否定的所以我想了解为什么 java util concurrent 包中没有 Concu
如何在Webview中保存用户名和密码

目前我还在学习Android开发的过程中所以如果我的这个问题对你来说不太容易理解请原谅我创建了一个 Android 应用程序它使用 RecyclerView 显示一组列表当用户单击列表中的每个名称时它会将它们重定向到一组不同的
Android - 保持用户登录状态

我正在尝试使用 PHP 和 MySQLi for Android 进行登录我不明白的是如何保持用户登录状态我看到一个简单的教程其中有人使用 SQLite 来保护信息但我不知道这是否真的安全如何保存用户信息以保持用户登录状态谢谢
有时 Properties.load() 会跳过行

在以下情况下 Properties load 会跳过 InputStream 的第二行这是 Java 的错误还是正常行为 public class PropTest public static void main String args
在 Java 服务器中验证 Windows 用户

我正在开发一个用 Java 编写的服务器和一个在同一网络上的 Windows 计算机上运行的客户端用 Net 编写的桌面应用程序我希望进行一些基本身份验证以便服务器可以确定运行客户端的用户的用户名而不需要用户在客户端中重新输入其 W
如何将多部分文件从另一个服务发送到一个服务

我有两个端点 api 它们是 uploadand 重定向 upload是我直接上传文件的地方重定向是我接收文件并将其传递给上传并获取 JSON 响应的地方 upload 所以下面是我的代码 package com example impo
如果所有类不在同一个包中，Spring @autowired 不起作用

我有四个包裹 com spring org Files HomeController java com spring org dao Files SubscriberDao java SubscriberDaoImpl java com s

随机推荐

正则表达式，单引号或双引号

我有这个正则表达式 preg replace key is key newValue contents 它将数组值写入配置文件中我需要在数组键周围允许使用单引号或双引号但我不知道该怎么做我没有写这个正则表达式处理多种引用样式的常用方
如何只关注 Github 上的特定问题，而不是观看整个项目？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否可以只关注 Github 上的特定问题而不是观看整个项目当一个特定问题发生更改拉取状态更改新评论时我希望通过电子邮件收到通知这有可
使用 rvm 更新 ruby 版本后收到警告消息“Path set to RVM”

最近由于出现警告消息我尝试更新我的 ruby 版本见下文现在当我启动 iterm2 时我收到以下警告消息 Warning PATH set to RVM ruby but GEM HOME and or GEM PATH not
如何在新算法中添加weka特征？

我想在 weka 中添加一种新算法在一个算法中具有分类聚类关联等功能我应该如何编写代码来包含所有 weka 功能并为这个新算法向 weka 添加一个选项卡我已经向 weka 添加了一个虚拟算法现在它可以工作了我想添加一个结合了
如何获取按输入顺序排序的 python Counter 输出？

我一直在努力获取计数频率然后制作它的图形表示我在用Counter班级来自collections使用Python 我想要的输出Counter按照先到对象的顺序例如 offset a b c a b b b c c c c c coun
WCF - 回调客户端（双工？）

我有一个问题不知道该选择什么解决方案我有一台正在运行的服务器正在运行可以从网站接收订单的服务多个客户端远程计算机以某种方式连接到该服务器我真的很想使用 WCF 进行所有通信但不确定是否可行我不想在路由器中配置所有客户端防火
握手期间连接终止

这真的很令人沮丧浪费了 3 天的时间来解决但在 Macos Catalina 版本 10 15 1 和 Windows 7 上仍然出现卡住问题我的两台电脑显示相同的错误第一次当我尝试获取包裹时它显示了 Users mamun
BL 服务：异常还是方法结果？

最好的方法是什么为什么 V1 try var service IoC Resolve
如何为 Google 地图创建“大小圆圈”图例

我有一个自定义的谷歌地图它使用 GeoJSON 文件中的数据创建大小的圆圈我需要做的是创建一个图例键来解释每个圆圈的大小代表什么我尝试按照 Google 的指南创建自定义图例 https developers google com
我的 PHP 卷曲请求出了什么问题，请帮忙..我没有得到任何数据[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 它说浏览器
如何（最好）将 WM_QUIT 发布到正在运行的进程？

目标关闭Windows下正在运行的32位GUI进程我可以访问可执行路径名该软件可能有多个副本正在运行但只有一个副本是从唯一的可执行路径名启动的由于可以运行该可执行文件的多个实例因此只需查看顶层窗口就需要区分哪个可执行文件路径名实
jsPDF fromHTML() 不显示 HTML

我正在研究一个简单的 javascript 我正在使用 jsPDF 库但脚本加载了一个空白的 pdf 这是代码
在 Objective-C 中查找一个不区分大小写的字符串

我的问题类似于Objective C 中如何检查一个字符串是否包含另一个字符串 https stackoverflow com q 2753956 602011 如何检查字符串 NSString 是否包含另一个较小的字符串但忽略大小写 NS
未找到：操作类型未注册“CountExtremelyRandomStats”

在 docker 容器中运行 bazel 命令时出现以下错误命令运行 bazel bin tensorflow serving model servers tensorflow model server port 9000 model n
如何连接到docker Oracle实例

我正在关注这些指示 https github com oracle docker images tree master OracleDatabase 我创建了一个像这样的 docker 容器 docker run name oracle p
删除旧的 .PhpStorm 目录是否安全

每次我将 PhpStorm 升级到新的单点版本时我的主目录中都会保留以前的版本我现在有 PhpStorm2017 1 PhpStorm2017 2 PhpStorm2017 3 PhpStorm2018 1 PhpStorm2018 2
如何在 Android Studio 中编辑 .jar 文件

如何使用 Android Studio 编辑 jar 文件中的 class 文件中的代码当然我已经尝试过编辑它由于某种原因我试图编辑的类是只读的 Jar文件是压缩档案 zipped files class文件以及一些其他资源 cl
学习 C# Excel 互操作的资源 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有哪些资源可以帮助我快速启动并运行 C 中的 Excel 互操作文章从 Visual Studio 2005 开发人员的角度理解 Exc
使用 scipy 中的 optimization.minimize 和 2 个变量和插值函数

我没有找到使用多维函数从 scipy 执行 optimize minimize 的方法在几乎所有示例中解析函数都得到优化而我的函数则被插值测试数据集如下所示 x np array 2000 2500 3000 3500 y np a
Spark fat jar 在 YARN 上运行多个版本

我有一个旧版本的 Spark 设置和 YARN 我不想删除它但仍然想使用较新的版本我找到了一个couple https community cloudera com t5 Advanced Analytics Apache Spark

Spark fat jar 在 YARN 上运行多个版本

Spark fat jar 在 YARN 上运行多个版本 的相关文章

随机推荐

热门标签

Spark fat jar 在 YARN 上运行多个版本的相关文章