Spark 应用程序如何使用 sbt run 启动。

2024-04-05

我实际上想知道当我执行时这是如何发生的底层机制sbt runSpark 应用程序启动！

这与在独立模式下运行 Spark 然后使用 Spark-Submit 部署应用程序有什么区别。

如果有人可以解释如何提交 jar 以及谁创建任务并在这两种情况下分配它，那就太好了。请帮我解决这个问题，或者指出一些可以消除我疑虑的读物！

首先，阅读this http://spark.apache.org/docs/latest/cluster-overview.html.

一旦您熟悉了术语、不同的角色及其职责，请阅读下面的段落进行总结。

运行 Spark 应用程序有不同的方法（Spark 应用程序只不过是一堆带有入口点的类文件）。

您可以将 Spark 应用程序作为单个 java 进程运行（通常用于开发目的）。这就是你跑步时发生的情况sbt run。在这种模式下，所有服务（如驱动程序、工作人员等）都在单个 JVM 内运行。

但上述运行方式仅用于开发和测试目的，因为它无法扩展。这意味着您将无法处理大量数据。这就是运行 Spark 应用程序的其他方式（独立、mesos、yarn 等）的用武之地。

现在阅读this http://www.agildata.com/apache-spark-cluster-managers-yarn-mesos-or-standalone/.

在这些模式下，将会有专门的 JVM 来扮演不同的角色。驱动程序将作为单独的 JVM 运行，可能有 10 到 1000 个执行器 JVM 在不同的机器上运行（太疯狂了！）。

有趣的是，在单个 JVM 中运行的相同应用程序将分布在 1000 个 JVM 上运行。应用程序的分布、这些 JVM 的生命周期、容错能力等均由 Spark 和底层集群框架负责。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

sbt

Spark 应用程序如何使用 sbt run 启动。的相关文章

Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre

随机推荐

将 php 变量发布到新窗口

我有一个由数据库动态构建的页面对于动态构建的每个内容我希望有一个弹出新窗口的链接并且该新窗口将根据单击第一页上的哪个项目来填充数据库中的列表我尝试过 POST 方法并将变量发布到 url 我知道这是危险的另一个独特之处是单击的链
MATLAB 求最大值一个结构体的

我试图找到结构的最大值但是max tracks matrix 不起作用它给我以下错误使用 horzcat 时出错 CAT 论证维度不一致你有想法吗这是我的结构的样子 tracks 1x110470 struct array with
Android Edittext光标不可见

我的应用程序中有一个编辑文本它将在 Froyo 或 Gingerbread 中正确显示光标但是在更高版本的 sdks 中光标是不可见的我在网上找到的解决方案是设置 android textCursorDrawable null 以便
Powershell 中的 CDPATH 功能？

有没有人实现了等效的行为bash 的 cdpath http www caliban org bash bashtips在 Powershell 中以前不知道CDPATH 很高兴知道我为 Powershell 编写了以下内容 funct
以对数刻度显示刻度标签 MS 图表 (log-log)

我在 Visual Studio 2015 C 中使用 MS Charts 创建了一个具有对数刻度两个轴的绘图见图我需要在 x 轴上添加更多网格线和相应的标签我想在 1 2 3 4 和 10 之间以及 10 到 100 20 30
对不受信任（自签名）HTTPS 的 AJAX 调用会默默失败

我想对使用自签名证书的安全服务器进行 AJAX 调用在使用我的应用程序的环境中这很好我可以向用户提供 CA 证书并让他们在使用应用程序之前安装它但是有时用户会在安装证书之前尝试访问该应用程序在这些情况下应用程序会默默地失败
如何将 React 应用程序部署到 Heroku

我已经使用 React 和 Node js 构建了一个单页天气应用程序但似乎无法将其部署到 Heroku 到目前为止我有在 Heroku 上创建了一个名为 Weather app react node 的新应用程序在 CLI 上登录
如何在Notepad++中将大写字母转换为小写字母

我主要使用 Notepad 进行编码如何将大写字母转换为小写字母反之亦然只需选择要更改的文本右键单击并根据需要选择大写或小写
将 PSD 格式转换为 Gimp 可以读取的格式的方法

我有一堆 PSD 文件还有更多我想将它们转换成我可以使用的格式我之前曾一些成功地使用 Gimp 读取 PSD 但这些文件无法正确读取有没有办法将 PSD 转换为 XCF 我尝试过 IrfanView 它可以正常显示 PSD 但无
如何在 Python 中将日期时间转换为 UTC 时间戳？

From http docs python org library time html http docs python org library time html 时间 mktime t 这是 localtime 的反函数它的论据是 s
使用 numpy.genfromtxt 在 Python 3 中加载 UTF-8 文件

我有一个从 WHO 网站下载的 CSV 文件 http apps who int gho data view main 52160 http apps who int gho data view main 52160 下载 CSV 格式的多
如何使用 R 编辑或修改或更改大型文本文件中的单行

我正在使用 R 将一些大型文本文件读入数据库但它们包含数据库软件的非法字段名称大型文本文件的列名仅在第一行中是否可以仅编辑第一行而不循环遍历文件中的每一行这似乎浪费资源这是我尝试对一些示例数据执行的操作的两个示例第一个将所有内容
如何在 Laravel 中使用 SQL Server 连接？

我有一个用 Laravel 3 制作的工作项目我必须切换到 MsSQL Server 虽然不是我的电话嗅探但我不明白这种数据库类型的 Laravel 配置我把里面默认的改了database php对此 default gt sqls
MPAndroidChart - 向条形图添加标签

我的应用程序有必要在条形图的每个条形上都有一个标签有没有办法用 MPAndroidChart 做到这一点我在项目 wiki javadocs 上找不到执行此操作的方法如果没有办法做到这一点是否有其他软件可以让我做到这一点更新答案
使用四舍五入毫秒从时间戳获取格式化日期 Bash Shell 脚本

我需要获取特定格式的日期但不知道该怎么做这是我目前获取日期的方法 date r timestamp Y m dT H M S s 然而问题是毫秒对于我需要的格式来说有太多数字我需要将毫秒限制为 3 位数字知道我该怎么做这样的事情吗
如何使图像表现得像文件输入？

单击默认照片时用户应该从计算机中选择一个文件而不是制作一个文件input type file 这使得用户首先单击浏览按钮而不是选择文件用户应直接单击默认照片然后会出现一个文件选择窗口
Objective-c：NSString 到枚举

所以我有这样的定义 typedef enum red 1 blue 2 white 3 car colors 然后我有一个 car colors 类型的变量 car colors myCar 问题是我在 NSString 中收到汽车的
错误类型错误：无法设置未定义的属性“分页器”

我正在使用表格角度材料创建表格作为参考我正在使用这个例子https material angular io components table examples https material angular io components t
如何在 Android 中通过 POST 请求查询 Web 服务？

我完全陌生网络要素服务 WFS http en wikipedia org wiki Web Feature Service但我想构建一个 Android 应用程序ksoap2 android http code google com p
Spark 应用程序如何使用 sbt run 启动。

我实际上想知道当我执行时这是如何发生的底层机制sbt runSpark 应用程序启动这与在独立模式下运行 Spark 然后使用 Spark Submit 部署应用程序有什么区别如果有人可以解释如何提交 jar 以及谁创建任务并在这两种情

Spark 应用程序如何使用 sbt run 启动。

Spark 应用程序如何使用 sbt run 启动。 的相关文章

随机推荐

热门标签

Spark 应用程序如何使用 sbt run 启动。的相关文章