Spark Yarn模式如何从spark-submit获取applicationId

2024-02-23

当我使用带有主纱线和部署模式集群的spark-submit提交spark作业时,它不会打印/返回任何applicationId,并且一旦作业完成,我必须手动检查MapReduce jobHistory或spark HistoryServer以获取作业详细信息。
我的集群被许多用户使用,需要花费很多时间才能在 jobHistory/HistoryServer 中找到我的作业。

有什么办法可以配置spark-submit返回applicationId?

注意:我发现了许多类似的问题,但他们的解决方案使用以下方法在驱动程序代码中检索 applicationIdsparkcontext.applicationId并且如果master yarn and deploy-mode cluster该驱动程序还作为 MapReduce 作业的一部分运行,任何日志或系统输出都会打印到远程主机日志。


以下是我用来实现此目的的方法:

  1. 将应用程序 ID 保存到 HDFS 文件。 (@zhangtong 在评论中建议)。
  2. 从驱动程序发送带有 applicationId 的电子邮件警报。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Yarn模式如何从spark-submit获取applicationId 的相关文章

  • Twitter API 与 Scala 2.12 一起使用

    我正在使用 Scala 2 12 使用 SBT 构建 构建 Spark 3 0 0 流应用程序 鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
  • Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒

    我没有配置任何超时值 而是使用默认设置 在哪里配置3600秒超时 怎么解决呢 错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
  • hive查询无法通过jdbc生成结果集

    我是 Hive 和 Hadoop 的新手 在我的教程中 我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
  • 如何使用 Apache Livy 设置 Spark 配置属性?

    我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数 这是测试 Spark 作业 class Test extends Job Int override def call jc J
  • 使用 pyspark 连接 PostgreSQL

    我正在尝试使用 pyspark 连接到数据库 并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
  • http://localhost:50070/ 的 hadoop Web UI 不起作用

    命令 jps 显示以下详细信息 第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了 网络用户界面位于http 本地主机 50070 http localhost 5007
  • Oozie SSH 操作

    Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令 我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了 这里真正的问题可能是什么 请指出解决方案 logs AUTH FAILE
  • 如何使用列的平均值将列添加到 DataFrame

    有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的 可以使用以下方法避免额外的操作broadcas
  • Spark 执行器 STDOUT 到 Kubernetes STDOUT

    我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
  • 将日期字符串转换为“MM/DD/YY”格式

    我刚刚看到这个例子 我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库 其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
  • 如何将Hive数据表迁移到MySql?

    我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例 但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例 这是我在 DynamoDB
  • 使用 mlib 执行 Spark-Shell,错误:对象 jblas 不是包 org 的成员

    在spark shell中 当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出 错误 对象 jblas 不是包 org 的成员 实际上 我用谷歌搜索了 jblas 并安装了 gfortran htt
  • 如何从 Databricks Delta 表中删除列?

    我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况 当我使用 PostgreSQL 时 它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
  • 列对象不可调用 Spark

    我尝试安装 Spark 并运行教程中给出的命令 但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
  • 如何从spark管道逻辑模型中提取变量权重?

    我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集 训练和测试 导入为 oas sql DataFrame 对象 执行以下代码后 生成的模型是oas ml tuning CrossValidatorMode
  • 在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

    因此 我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群 我的 jar 在地图函数内 我这样调用 Hbase public void map Text key BytesWri
  • ';'预期但发现“导入” - Scala 和 Spark

    我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序 我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
  • 如何通过Python访问Hive?

    https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
  • Spark问题中读取大文件 - python

    我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
  • Hive - 线程安全的自动递增序列号生成

    我遇到一种情况 需要将记录插入到特定的 Hive 表中 其中一列需要是自动递增的序列号 即在任何时间点都必须严格遵循 max value 1 规则 记录从许多并行的 Hive 作业插入到这个特定的表中 这些作业每天 每周 每月批量运行 现在

随机推荐

  • Oracle 中的并发更新:锁定与否?

    我很困惑 我正在阅读有关 Oracle 中的 MVCC 的内容 我以为MVCC意味着没有锁 但是 我在其他地方读到这一切UPDATE无论隔离级别如何 都会执行自动锁定 有人可以解释一下 Oracle 更新期间会发生什么吗 当多个已提交读事务
  • Mfc CComboBoxEx - 如何更改背景颜色

    我有一个派生自 CComboBoxEx 的类 我正在尝试更改背景颜色 我认为它会像 ComboBox 一样工作 使用 SetBkColor 函数 但它不会改变背景颜色 这是我尝试过的 BEGIN MESSAGE MAP CMyComboBo
  • svn:转储格式文档?

    svnadmin dump 格式是否记录在某处 我想记录一个包含 svn 存储库所有元数据的数据结构 除了文件内容本身之外 它基本上与 转储 文件中的内容相同 似乎 svnkit 库会有它 或者有办法以编程方式获取此元数据 但我在过去的一个
  • 单击引导按钮显示默认颜色

    我正在尝试使用下面的代码设置按钮颜色的样式 颜色在我单击按钮之前一直有效 按钮显示默认颜色 如何指定按钮 onclick 的颜色 btn success color ffffff background color 161617 border
  • 当目标是对象时,JSON.net 将 json 数组序列化为 JArray。我怎样才能改变这一点?

    我有一个单级 json 我想将其反序列化为Dictionary
  • C++ - 类函数内数组的长度[重复]

    这个问题在这里已经有答案了 我知道有几个线程问类似的问题 但我找不到解决方案 而且我对 C 有点陌生 我想计算 DWORD 数组的长度 所以它只是一个无符号长整型 DWORD offsets 0x378 0x14 0x0 这是我的函数的标头
  • 获取 SDWebImage 缓存图像

    我想问一下SDWebImageManager下载后如何获取下载的图像 我只有通过 URL 下载它的代码 这就是我得到的 let manager SDWebImageManager SDWebImageManager sharedManage
  • 如果浏览器选项卡处于非活动状态,则 SignalR 连接超时

    如果我保持浏览器选项卡处于活动状态 至少每 5 6 分钟打开一次 我的 WebSocket 连接会通过 ping 请求保持活动状态 请参阅随附的屏幕截图 但是 如果我放弃该选项卡 10 分钟左右 ping 请求就会停止发生 WebSocke
  • 存储和编辑 Java EE 应用程序的配置

    UPDATE 请参阅我关于此主题的博客文章大约一年后撰写 http blog ringerc id au 2012 07 java ee 7 needs improvements in app html http blog ringerc
  • 如何在 Django 中的 URL 中传递 kwargs

    在 django 文档中 url 函数是这样的 url regex view kwargs None name None prefix 我有这个 url r download template P
  • Hibernate 数据库加密对应用程序完全透明

    我正在开发一个 Grails 1 0 4 项目 该项目将在不到 2 周的时间内发布 客户刚刚提出了一个要求 即数据库中的所有数据都应该加密 由于对应用程序本身中的每个数据库访问进行加密可能会花费大量时间并且容易出错 因此我寻求的解决方案是某
  • 在内部存储上播放文件时 MediaPlayer 错误-2147483648

    我正在使用android com 上的音频捕获示例 http developer android com guide topics media index html在实际设备上录制和播放音频 摩托罗拉触摸板和三星 Galaxy S 当我将音
  • 使用 Android 设计支持库从右到左导航抽屉菜单

    我正在使用 android 设计支持库 我想知道如何拥有从右到左的导航抽屉 我将重力设置为右侧 但只有导航抽屉本身移动到右侧 我想知道如何将右侧的菜单项 导航视图
  • 我无法使用 PowerShell 和 Selenium 模块启动 chrome instant

    我不确定我缺少什么 但我在 PowerShell 7 1 下安装了 Selenium 模块 但无法启动 chrome 实例 我按照以下步骤操作 从https github com adamdriscoll selenium powershe
  • PHP 无效字符错误

    运行此代码时我收到此错误 Fatal error Uncaught exception DOMException with message Invalid Character Error in test php 29 Stack trace
  • 性能类型 varchar(1) 或smallint 来存储状态 Postgres

    我将存储从 0 到 7 的状态 考虑到 Postgres 数据库的性能和空间 我想知道哪个类型字段更适合存储 varchar 1 或smallint 对了 设置一个字段varchar 1 和varchar 100 有什么区别吗 还在讨论性能
  • 如何在页脚中显示生成页面所需的持续时间?

    在调试构建期间 我想显示服务器端在页面页脚中生成页面所需的持续时间 例如 如果一个页面在服务器端花费 250 毫秒 我希望在调试版本中显示在页脚中 如何在 ASP NET MVC 项目中实现这一目标 将其添加到母版页的页脚中 Page re
  • jQuery:.select() 和 .focus() 方法区别

    在 jQuery 中 两者之间的基本区别是什么 select focus 它们合适的使用场所是什么 他们有各自的区别 select will fire when TEXT is selected 仅限于
  • 如何从 Mercurial 存储库中安全地禁用/删除大型文件目录?

    过去 我一直在 Mercurial 中使用大型文件扩展来将数据与我正在处理的代码一起保存 我认为这是一个错误 我想删除 largefiles 目录 8GB 我们的网络用户目录限制为 10 GB 我需要空间 我已经很长时间没有使用任何大文件了
  • Spark Yarn模式如何从spark-submit获取applicationId

    当我使用带有主纱线和部署模式集群的spark submit提交spark作业时 它不会打印 返回任何applicationId 并且一旦作业完成 我必须手动检查MapReduce jobHistory或spark HistoryServer