使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别

2024-04-05

我是 Spark 新手，在学习这个框架时，我发现，据我所知，用 Scala 编写的 Spark 应用程序有两种运行方式：

将项目打包成JAR文件，然后使用spark-submit脚本运行它。
直接使用 sbt run 运行项目。

我想知道这两种执行模式之间有什么区别，特别是当使用 sbt run 运行时，当它与 Spark-submit 完美运行时可能会抛出 java.lang.InterruptedException 。

Thanks!

SBT是一个构建工具（我喜欢在 Linux 上运行），并不一定意味着 Spark 的使用。碰巧它像 IntelliJ 一样用于 Spark 应用程序。

You can package and runSBT 控制台下单个 JVM 中的应用程序，但不是大规模的。因此，如果您创建了一个指定了依赖项的 Spark 应用程序，SBT 将使用以下命令编译代码：package并创建一个具有所需依赖项等的 jar 文件run本地。

您还可以使用assemblySBT 中的选项创建了一个uber jar or fat jar将所有依赖项包含在您上传到集群并通过调用运行的 jar 中火花提交。因此，再次强调，如果您创建了一个指定了依赖项的 Spark 应用程序，SBT 将通过程序集编译代码并创建一个包含所有必需依赖项等的 uber jar 文件，但您需要发送给 Workers 的外部文件除外，在您的集群上运行（一般情况下）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别的相关文章

Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
GCP Dataproc Spark.jar.packages 下载依赖项时出现问题

创建 Dataproc Spark 集群时我们通过 properties spark spark jars packages mysql mysql connector java 6 0 6 to the gcloud dataproc
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
使用 vs code，如何让 scala 格式工作并格式化我的代码？

我的多项目 sbt 存储库中有 scala 格式插件 addSbtPlugin org scalameta sbt scalafmt 2 3 2 所以在 sbt 控制台中如果我运行 scalafmt 它工作正常我的 build sbt 有
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何从多模块构建中的不同模块引用 SBT 设置

在带有子模块的多模块构建中server我写了一个自定义任务server build sbt我想在其中提到baseDirectory根项目的这是任务 lazy val genData taskKey Unit generate files
条件 scalacSettings/settingKey

我想要我的scalacSettings当我发出自己的命令时要更严格更多的 linting validate 实现这一目标的最佳方法是什么新的范围 strict 确实有效但是当您发出时需要编译项目两次test 所以这不是一个选择 SBT
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa

随机推荐

PostgreSQL - 动态值作为表名[重复]

这个问题在这里已经有答案了可能的重复 Postgres动态查询功能 https stackoverflow com questions 10639963 postgres dynamic query function 我希望使用下面的查询
如何确定 Pandas 列是否包含特定值

我试图确定 Pandas 列中是否有具有特定值的条目我尝试这样做if x in df id 我认为这是有效的除非我给它提供了一个我知道不在列中的值43 in df id 它仍然返回True 当我子集为仅包含与缺少的 id 匹配的条目的数
服务器删除自定义 HTTP 标头字段

我一直在尝试接收标头中带有自定义字段的 HTTP 请求但似乎我的服务器删除了它们这是我发送到服务器的请求我使用 HTTP 代理读取该请求 POST oauth php request token HTTP 1 1 Host domai
Xbox 上的 UWP 应用

在围绕 Windows 10 的活动和促销期间我总是看到 UWP 应用程序可以在 Microsoft 系列的所有设备上运行为了确认这一点当我在浏览器上浏览 UWP 应用程序并单击以查看应用程序页面的源代码时我能够看到以下元数据那
MPAndroidChart：带有三次贝塞尔曲线的折线图显示错误（尖峰和循环）

我正在尝试制作带有立方图的折线图结果如下面的屏幕截图所示三次贝塞尔曲线显示错误并且有尖峰有人可以帮我让它正确显示吗这是我的配置 LineDataSet lineDataSet new LineDataSet entries nam
如何更新 xml 文件而不将整个文件加载到内存中

我们如何更新 xml 文件而不将其完全加载到内存中在下面的代码中我想浏览每个父节点注释并更新 to 节点的值我们如何使用 C 来实现这一点我必须根据代码中的其他一些计算来更新 to 字段
以编程方式连接两个子系统

我正在尝试以编程方式重用我之前开发的一些自定义块模型来构建一个复杂的模型但我无法设法连接两个 PMC Port 这就是我所拥有的 Main system sys name model sys new system sys name op
是否可以使用连续传递样式将此递归函数转换为尾递归函数？

我最近写了一个ETL 效果很好我想提醒自己如何使用免费的 monad 因此想将我的 ETL 转换为这样的注意我的目的不是写一个更好的 ETL 而是让自己重新熟悉免费的 monad 在重新学习自由单子如何工作时我偏离了这个问题的主题
我在片段内有一个复选框，我希望它在单击注册按钮时发布一些数据，该按钮位于我的主要活动内？

我第一次在片段中工作在主要活动中我有一个 spinnerListner 随着微调器中的项目发生变化在片段容器中片段相应地发生变化我刚刚在fragment xml 文件中创建了一些复选框我只想在每次注册点击时为每个选中的复选框发布
在文本字段中输入文本时禁用面板水平滚动

当有人在文本字段中输入文本时我想禁用面板的水平滚动第一个问题目前的问题是当您在任何文本字段中输入文本并按键盘上的右箭头键 keyCode 39 时面板水平方向也会向正确的方向移动我想在文本字段中输入文本时禁用它第二个问题仅当单
在Android中手动创建UI线程以增加其小堆栈大小

我在主 UI 线程中遇到 StackOverflowErrors 问题相关问题 https stackoverflow com questions 16843357 what is the android ui thread stack
Access数据库建站成功，可以查询数据，但不能删除记录

我刚刚学习 Visual Studio C 2 个月最近我编写了可以与Microsoft Access 2007连接的代码并且运行顺利它可以显示数据并且可以删除记录正如我所期望的但是当我构建项目时它仍然显示数据但无法删除
XCUITest 类拆解不会删除应用程序。但如果其实例拆卸则有效。我究竟做错了什么？

我有一个类拆卸它试图删除该应用程序但它无法识别 app terminate class DeviceSettingsUtilities UITestUtilities func removeApp productName String
Jupyter R Notebook 中的 HTML 小部件

使用 R 时我无法在 Jupyter Notebooks 中显示 HTML 小部件使用 python 时有效例如所有绘图图表都不能在 Jupyter R 笔记本中工作有什么解决办法吗 library plotly set seed
如何刷新原始 AF_PACKET 套接字以获得正确的过滤数据包

sock socket AF PACKET SOCK RAW htons ETH P ALL setsockopt sock SOL SOCKET SO ATTACH FILTER f sizeof f 使用这个简单的 BPF LPF 附加
Entry::Occupied.get() 返回引用当前函数拥有的数据的值，即使 hashmap 应该拥有所有权

我的目标是实施建议的改进缓存结构Rust 书第 13 1 章的内容是创建一个结构体该结构体接受一个函数并使用记忆来减少给定函数的调用次数为此我创建了一个结构体HashMap struct Cacher
为什么 grails 第一次访问 hasMany 关系时会抛出空指针异常？

我有一个奇怪的问题我有两个域类User and Post与字段 class User String name static hasMany posts Post static constraints and class Post Stri
如何从 jQuery UI 滑块获取值？

我正在研究http gamercity info ymusic http gamercity info ymusic 我使用 UI 滑块作为搜索栏播放视频时我想调用seekTo seconds 如果用户单击搜索栏上的任意位置则函数如何
android——关于singleTask模式的问题

在查找任务和返回堆栈指南的定义启动模式部分后我不完全理解用 singleTask 声明的活动的行为假设当该活动的实例位于后台任务的底部根活动时我启动一个 singleTask 活动通过 startActivity 方法
使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别

我是 Spark 新手在学习这个框架时我发现据我所知用 Scala 编写的 Spark 应用程序有两种运行方式将项目打包成JAR文件然后使用spark submit脚本运行它直接使用 sbt run 运行项目我想知道这两种执

使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别

使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别 的相关文章

随机推荐

热门标签

使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别的相关文章