如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

2023-12-28

我很高兴 HDInsight 切换到 Hadoop 版本 2，它通过 YARN 支持 Apache Spark。对于我想要执行的任务，Apache Spark 是比 MapReduce 更适合的并行编程范例。

但是，我无法找到任何有关如何将 Apache Spark 作业远程作业提交到我的 HDInsight 群集的文档。对于标准 MapReduce 作业的远程作业提交，我知道有几个 REST 端点，例如 Templeton 和 Oozie。但据我所知，通过 Templeton 运行 Spark 作业是不可能的。我确实发现可以将 Spark 作业合并到 Oozie 中，但我读到这是一件非常乏味的事情，而且我还读过一些作业故障检测在这种情况下不起作用的报告。

也许必须有一种更合适的方式来提交 Spark 作业。有谁知道如何将 Apache Spark 作业远程提交到 HDInsight？

提前谢谢了！

您可以在 hdinsight 集群上安装 Spark。你必须在以下时间完成创建自定义集群 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-customize-cluster/并添加一个操作脚本，该脚本将在为集群创建 VM 时在集群上安装 Spark。

To 使用操作脚本安装 http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-spark-install/集群安装非常简单，您可以通过在标准自定义创建集群脚本/程序中添加几行代码，在 C# 或 powershell 中完成安装。

电源外壳：

# ADD SCRIPT ACTION TO CLUSTER CONFIGURATION
$config = Add-AzureHDInsightScriptAction -Config $config -Name "Install Spark" -ClusterRoleCollection HeadNode -Urin https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1

C#:

// ADD THE SCRIPT ACTION TO INSTALL SPARK
clusterInfo.ConfigActions.Add(new ScriptAction(
  "Install Spark", // Name of the config action
  new ClusterNodeType[] { ClusterNodeType.HeadNode }, // List of nodes to install Spark on
  new Uri("https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1"), // Location of the script to install Spark
  null //because the script used does not require any parameters.
));

然后，您可以通过 RDP 进入头节点并使用 Spark-Shell 或使用 Spark-Submit 来运行作业。我不确定如何运行 Spark 作业而不是 rdp 到头节点，但这是另一个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN 的相关文章

云到设备 Azure IoT REST API

我探索了如何使用 Azure REST API 将数据从设备发送到云它运行无缝没有任何问题我没有找到有关使用 Azure IoT Hub REST API 向 Arduino 板发送云到设备消息的好文章有人可以就此提供建议吗您还可
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何授予将网站发布到 Azure 的权限？

如何授予某人将 ASP NET MVC 网站发布到 Azure 的权限而无需交出我的个人凭据使用新的 Azure 资源管理器 ARM 您可以使用基于角色的访问控制 RBAC 授予用户对您拥有的特定 Azure 资源的特定访问权限有 3
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
在 azure devops 门户上查看代码覆盖率报告

我正在运行 NUnit 测试 Net Framework 4 5 中的项目作为 azure devops 构建管道的一部分 task VSTest 2 inputs testAssemblyVer2 tests Tests dll pat
使用 Azure AD 身份验证保护的 WebAPI 无法在 IIS 上工作，但在使用 Visual Studio 的 IIS Express 上工作正常

我正在开发一个使用 Asp Net WebAPI 调用的 AnguarJS SPA 应用程序我已在 Azure AD 上注册了客户端和后端应用程序我的客户端 Web 应用程序已注册详细信息如下登录网址 http 本地主机 93 ht
从 Azure ML 工作室下载经过训练的 ML 模型以部署在独立计算机上

我已在 Azure ML 中设置了 ML 模型studio我可以使用 ML Studio 的 Web API 来获取预测将模型托管在 Azure ML Studio 中的关键挑战是客户端计算机的互联网依赖性以及与每个预测相关的延迟我想了
Azure网站有时无法连接到SQL Azure数据库

我已经在 Azure 中测试了一个网站大约一个月免费试用现在我已经订阅了即用即付的服务当我进行免费试用时我完全没有遇到连接问题现在我再次部署到一个在即用即付订阅上创建的新网站其设置缩放模式等与前一个网站相同但是现在当我
通过 Bot 进行团队通信和网络聊天

With https portal azure com我设法创建了一个QnA Bot 我还设法从Bot Framework Emulator to MS Teams和Test Web Chat机器人的尽管到目前为止它是非常静态的并且是手动
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
尽管低于配额，但无法在 Azure 中创建新的服务主体

尽管低于配额但我无法在 Azure 中创建任何新的 SP 如果我运行 az ad sp create for rbac I get The directory object quota limit for the Principal ha
如何在 FineUploader Azure 请求中包含 Content-MD5 标头？

我想使用 Content MD5 标头向 Azure 提供客户端生成的上传文件的 MD5 哈希值我如何在 FineUploader 中完成此任务目标受众 Firefox Chrome Safari Opera 和 IE10 判断依据这个
ADAL - AcquireTokenSilentAsync 失败（Azure Active Directory 身份验证库）

我编写了一个新的应用程序来通过其余 API 访问 Office 数据因此我想使用新的认证模型 V2 0端点 v2 0 端点有什么不同 https azure microsoft com en us documentation artic
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
使用流分析将自定义事件维度从 Application Insights 导出到 SQL

我正在按照示例演练进行操作使用流分析从 Application Insights 导出到 SQL https azure microsoft com en us documentation articles app insights cod
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Azure WebJob QueueTrigger 重试策略

我想让我的队列每 90 分钟重试一次失败的网络作业并且只尝试 3 次创建队列时我使用以下代码 CloudQueueClient queueClient storageAccount CreateCloudQueueClient IRet

随机推荐

如何使用 Trello.NET 从 Trello 获取所有图板？

这是我的代码 ITrello trello new Trello MyAppToken trello Authorize MyUserToken Member me trello Members Me var cards trello Ca
为什么此 SVG 图形在 IE9 和 10（预览版）中无法缩放？

根据IE网站 http msdn microsoft com en us ie hh410107 aspx支持 SVG 也根据这个答案什么是支持 SVG 可缩放矢量图形的浏览器 https stackoverflow com questi
在C++中，函数返回类型后面的&是什么意思？

在这样的 C 函数中 int getNumber 什么是意思是它不同于 int getNumber 这不一样 int g test 0 int getNumberReference return g test int getNumber
在 if 块内使用 wait 时，“await”对此表达式的类型没有影响

在我的代码中我有一个用户名数组我试图遍历每个名称检查该用户是否存在于数据库中并创建用户问题是我的 linter 说 await has no effect on the type of this expression在我标记的地
处理空参数的存储过程

我确信这有一个非常简单的答案我没有找到我在数据库中有一个简单的层次结构其中每一行都有一个 ParentId 如果ParentId IS NULL 那么它就是一个根元素我有存储过程 CREATE PROCEDURE GetByPare
使用 JSch 将文件从一台远程服务器发送到另一台使用 JSch 的服务器

我想将文件从我的第一个远程服务器发送到另一个远程服务器 public boolean uploadFile throws JSchException SftpException ChannelSftp channelSftpA create
从 C++ 调用 Swift 函数

我想知道是否可以从 C 调用 Swift 函数如果是怎么办我知道我们可以从 Swift 调用 C 函数但我还没有找到确切的答案虽然没有直接从 C 调用 Swift 函数的官方方法但您可以设置一个可从 C 调用的函数指针这是否有
使用 Qt 判断 PC 是否退出待机状态

有没有一种跨平台的方法使用 Qt 来判断计算机是否已退出待机或休眠状态我需要能够检测计算机何时退出待机状态以便重置继续进程在本例中它是通过串行端口连接到 GPS 基于以下讨论http comments gmane org gma
共享快捷方式/图标

我有几个带有共享文件的 inno 设置使用 Sharedfile 标志可以确保它们仅在不再使用时才被卸载然而这不适用于快捷方式或图标因为它们在 inno 中被调用并指向这些文件即使目标文件没有被卸载快捷方式也总是被删除那么我缺
我可以以这样的方式加载 dll，以便在加载时可以将其删除吗？

标题基本概括了所有内容我想做的是编写一个工具来监视包含插件的 dll 文件当我覆盖它时通过重新编译它应该自动重新加载它我知道我可以制作副本加载副本并监视原始文件但我认为可能有更好的方法如果我理解正确的话 dll 已完全加载到
如何为 Hexo 实现选项卡式代码块标签

我正在尝试在 hexo 中创建选项卡式代码块作为标签插件但我不知道在哪里放置我的 js 函数我想我可以使用加载该函数js 助手 https hexo io api helper html但我不知道在哪里包含助手我尝试将其添加到标签插
如何在android中的操作栏中设置应用程序图标

我想在我的操作栏上设置我的应用程序图标请帮助我我已经尝试过但没有创建任何内容 getSupportActionBar setTitle MukilFM getSupportActionBar setIcon R drawable fm
如何在 Visual Studio for Mac 中启用迁移

我有 Visual Studio for Mac 我正在尝试使用以下教程来学习 Xamarin 和 Azure https adrianhall github io develop mobile apps with csharp and a
如何通过矩阵索引值检索矩阵列和行名称？

假设我有一个矩阵 mdat 并且我只知道索引号如何检索列名和行名例如 gt mdat lt matrix c 1 2 3 11 12 13 nrow 2 ncol 3 byrow TRUE dimnames list c row1 ro
如何从 Wicket 1.5 中的 RequestCycle 获取responsePage？

在 Wicket 1 4 中我使用了我自己的WebRequestCycle在分离时将页面存储在会话中以实现后退链接 getRequestCycleListeners add new AbstractRequestCycleListen
在 java 中读取 Excel 工作表的更好的 API - JXL 或 Apache POI [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 2 个 API 中哪一个更容易读取写入编辑 Excel 工作表这些 API 不支持 CSV 扩展吗对 file xls 和 file x
3D 绘图中的图像叠加

我有一个由 matplotlib 生成的 3D 线条图我想在特定的 xy 或 yz xz 切片上叠加图像我如何使用 python 来做到这一点谢谢我有一个简单的 3d 绘图代码 fig plt figure 1 br ax Axes
更改c指针值的正确方法

抱歉另一个 C 指针问题我有一个函数 func 对数组进行排序然后获取最大和最小整数我试图将它们放入 main 中的指针变量中但这些值仅在 func 函数中正确我不明白为什么 include
在 Django 1.7 中运行单元测试时禁用迁移

Django 1 7介绍数据库迁移 https docs djangoproject com en 1 7 topics migrations 在 Django 1 7 中运行单元测试时它强制migrate 这需要很长时间所以我想跳过
如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

我很高兴 HDInsight 切换到 Hadoop 版本 2 它通过 YARN 支持 Apache Spark 对于我想要执行的任务 Apache Spark 是比 MapReduce 更适合的并行编程范例但是我无法找到任何有关如何将

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN

如何将 Apache Spark 作业提交到 Azure HDInsight 上的 Hadoop YARN 的相关文章

随机推荐

热门标签