集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台

2024-02-19

我陷入了一个需要快速解决的问题。我已经阅读了许多关于 Spark 集群部署模式的帖子和教程，但我对这种方法一无所知，因为我被困了几天。

我的用例：- 我有很多使用“spark2-submit”命令提交的 Spark 作业，提交后我需要在控制台中打印应用程序 ID。 Spark作业采用集群部署模式提交。（在正常客户端模式下，它被打印）

创建解决方案时我需要考虑的要点：- 我不应该更改代码（因为这会花费很长时间，因为有许多应用程序正在运行），我只能提供 log4j 属性或一些自定义编码。

我的方法：-

1）我尝试更改log4j级别和各种log4j参数，但日志记录仍然转到集中日志目录。

来自我的 log4j.properties 的部分：-

log4j.logger.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend=ALL,console
log4j.appender.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend.Target=System.out

log4j.logger.org.apache.spark.deploy.SparkSubmit=ALL
log4j.appender.org.apache.spark.deploy.SparkSubmit=console

log4j.logger.org.apache.spark.deploy.SparkSubmit=TRACE,console
log4j.additivity.org.apache.spark.deploy.SparkSubmit=false

log4j.logger.org.apache.spark.deploy.yarn.Client=ALL
log4j.appender.org.apache.spark.deploy.yarn.Client=console


log4j.logger.org.apache.spark.SparkContext=WARN
log4j.logger.org.apache.spark.scheduler.DAGScheduler=INFO,console

log4j.logger.org.apache.hadoop.ipc.Client=ALL

2）我还尝试添加自定义侦听器，并且我能够在应用程序完成后获取 Spark 应用程序 ID，但不能获取控制台。

代码逻辑：-

public void onApplicationEnd(SparkListenerApplicationEnd arg0) 
    {
         for (Thread t : Thread.getAllStackTraces().keySet()) 
         {
            if (t.getName().equals("main"))
            {
                System.out.println("The current state : "+t.getState());

                Configuration config = new Configuration();

                ApplicationId appId = ConverterUtils.toApplicationId(getjobUId);

                // some logic to write to communicate with the main thread to print the app id to console.
            }
         }
    }

3）我已将spark.eventLog启用为true，并在HDFS中指定一个目录来从spark-submit命令写入事件日志。

如果有人可以帮助我找到解决方案，那将非常有帮助。或者，如果我做错了什么，任何见解都会对我有帮助。

Thanks.

在同一个地方被困了几天后，我终于找到了解决问题的方法。

在浏览了集群部署模式的 Spark 代码和一些博客之后，很少有事情变得清晰。它可能会帮助其他想要实现相同结果的人。

在集群部署模式下，作业是通过客户端线程从用户提交的计算机提交的。实际上，我将 log4j 配置传递给驱动程序和执行程序，但错过了“客户端”的 log 4j 配置丢失的部分。

所以我们需要使用：-

SPARK_SUBMIT_OPTS="-Dlog4j.debug=true -Dlog4j.configuration=<location>/log4j.properties”spark-提交<rest of the parameters>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

logging

Log4j

log4j2

apachespark20

集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台的相关文章

java.util.logging.Logger 不尊重 java.util.logging.Level？

在普通 Java SE 6 环境中 Logger l Logger getLogger nameless l setLevel Level ALL l fine somemessage Eclipse 控制台中没有显示任何内容 l info
Python 日志记录在 ini 文件中为处理程序添加过滤器？

我有一个像这样的 log ini handler info class StreamHandler level INFO formatter fmt filter infofilter args sys stdout handler err
在pyspark lambda映射函数中使用keras模型

我想使用该模型来预测 PySpark 中的映射 lambda 函数的分数 def inference user embed item embed feats user embed item embed dnn model load mode
使用 doctest 并登录 python 程序

usr bin python2 4 import logging import sys import doctest def foo x gt gt gt foo 0 0 print d x logger debug d x def tes
如何更改 apache Spark Worker 每个节点的内存

我正在配置 Apache Spark 集群当我运行具有 1 个主服务器和 3 个从服务器的集群时我在主监视器页面上看到以下内容 Memory 2 0 GB 512 0 MB Used 2 0 GB 512 0 MB Used 6 0 G
如何解决此 Log4J 导入错误（也与类路径相关）？

当我运行以下简单的 log4J 示例时出现错误 import org apache logging log4j core import java io import java sql SQLException import java ut
Tomcat日志格式禁用IPv6格式

以下是三个日志示例 127 0 0 1 17 Sep 2010 14 03 07 0800 GET docs logging html HTTP 1 1 200 24040 http localhost 8000 docs manager
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
Spark 编码器：何时使用 beans()

我在使用Spark的缓存机制时遇到了内存管理问题我目前正在使用Encoder我正在使用 Kryo 想知道切换到 beans 是否可以帮助我减少缓存数据集的大小基本上在使用时使用 beans 相对于 Kryo 序列化有哪些优点和缺点En
如何使用 core.async 在 Clojure 中写入日志文件？

我想使用 core async 作为写入文件的记录器因此我创建了一个 test txt 文件将其粘贴在我的资源文件夹中并编写了以下代码 use clojure java io use clojure core async def pri
将 sys.stdout 重定向到 python 日志记录

所以现在我们有很多 python 脚本我们正在尝试整合它们并修复和冗余我们正在尝试做的事情之一是确保所有 sys stdout sys stderr 都进入 python 日志记录模块现在最重要的是我们希望打印出以下内容
Spark 2.0.x 从包含一个字符串类型数组的数据帧转储 csv 文件

我有一个数据框df包含一列数组类型 df show 好像 ID ArrayOfString Age Gender 1 A B D 22 F 2 A Y 42 M 3 X 60 F 我试着把它扔掉df在 csv 文件中如下所示 val du
Spark流吞吐量监控

有没有办法监控 Spark 集群的输入和输出吞吐量以确保集群不会被传入数据淹没和溢出就我而言我在 AWS EC2 上设置了 Spark 集群所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点但我的
Apache Spark Parquet：无法构建空组

我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的今天切换我有一个数据集 root muons array nullable true element struct containsNull true reco
无法获取 GED 日志缓冲区，错误(0)

我的 Android 项目有一个大问题那就是error Failed to get GED Log Buf err 0 我真的不知道该怎么办以及如何解决它有人可以帮我吗非常感谢 Find Advanced logging在你手机的De
在可序列化 Java 类中使用记录器的正确方法是什么？

我有以下 doctored 我正在开发的系统中的类以及Findbugs http findbugs sourceforge net 正在生成一个SE BAD FIELD http findbugs sourceforge net bugDe
dmesg 和 /var/log/kern.log 之间的区别

我正在修改kvm模块并在内核代码中添加了printk语句运行虚拟机后 printk为我提供了错误地址和有关客户操作系统的其他信息我需要根据此信息生成统计信息当我使用 dmesg 时我只能看到错误地址在内核空间中即它们的地址高于
线程“main”中的异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

我收到此错误的原因是什么最初 Scala 的 IDE 插件是 2 12 3 但由于我使用的是 Spark 2 2 0 所以我手动将其更改为 Scala 2 11 11 Using Spark s default log4j profile
Grails Log4J 未登录生产环境

我有一个 Grails 1 3 7 应用程序并尝试在配置中设置 log4j 以用于生产 log4j 设置在开发中很好但我无法在生产中显示任何内容我正在尝试制作一个滚动文件等但我无法显示任何内容我什至在信息级别进行了配置这样我
了解 mesos 上 Spark 作业的资源分配

我正在 Spark 中开发一个项目最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理我现在发现自己对新系统下提交作业时如何分配资源感到困惑在独立模式下我使用了类似的东西遵循一些建议这篇 Cloude

随机推荐

如何拦截并翻译USB事件

我想使用飞利浦 LFH 2330 查看图像使用 Windows Image Viewer 或其他查看器如 IrfanView 等 LFH 2330 是一款带有四个踏板的脚踏控制器参见here http www aaaaudio net
HTTP 请求正文无法通过 AWS API Gateway 访问 AWS lambda 函数

我有一个用 Scala 编写的非常基本的 lambda 函数部署到 AWS Lambda 当我通过 AWS Lambda 控制台测试该函数时该函数运行良好这是出于调试目的添加了一些附加日志记录的函数 package com space
给定坐标，如何获取 10 英里半径内的所有邮政编码？

我有一个位置纬度和经度如何获取部分或全部位于我所在位置 10 英里半径范围内的邮政编码列表该解决方案可以是调用众所周知的 Web 服务 google 地图 bing 地图等或本地数据库解决方案客户端有 sql server 200
Git pull 失败：您有未暂存的更改。 Git 状态：没有任何可提交的内容（工作目录干净）

当尝试执行 git pull 时我得到你有未暂存的更改当我执行 git status 时它会显示没有要提交的内容工作目录干净为什么我可以执行 git reset hard 然后拉但我不明白为什么拉第一次失败如果您有旧版本
什么是边缘导轨？

边缘导轨是什么意思我在网上找到了一些提示但不清楚这是否意味着最新的Rails或Rails 2 2还是什么边缘导轨是Rails 主分支 http github com rails rails commits 这意味着最新提交之前的一
流畅的 NHibernate 获取视图，无需唯一标识符

我正在尝试映射没有标识符的视图但 nhibernate 仍然生成带有 id 列的 sql 给我一个 sql 错误因为数据库中不存在 ID 列也许我误解了 Id 构造函数构造函数注释创建一个在域对象中没有对应属性的Id 或数据库中的
SAS列出并存储指定库下的所有表名到表中

在库测试下我有 5 个数据集如何列出所有表名称 proc datasets lib work quit run 虽然我想进一步利用这些信息就像表名一样 Thanks 使用 SQLdictionary tables view pro
禁用 Firefox 网络通知的默认警报声音

我正在使用网络通知API https developer mozilla org en US docs Web API Notification Using Web Notifications在 OSX 下显示来自我的网络应用程序的桌面通知
对变量使用替换

我将如何在 vimscript 中完成以下功能 fun Foo let l bar Hello there world Perform a substitution on l bar changing world to kitten end
Groovy XmlSlurper 获取没有子节点的节点的值

我正在解析 HTML 并尝试获取父节点本身的值而不获取子节点的值 HTML 示例 div a href http intro com extra stuff a Text I would like to get a href http e
UICollectionView 中的自定义标头，带有 Interface Builder，无需 Storyboard

我正在尝试将自定义视图添加到我的标题部分UICollectionView 我有 xib 文件界面生成器但我不使用故事板我已经检查了 Interface Builder 中的节标题但没有出现任何 UICollectionReusable
根据打开的片段更改操作栏中的选项菜单图标

我的选项菜单中有此项目
将鼠标放在正文上并向上或向下拖动页面，就像在 pdf 上一样

我该如何做到这一点以便我可以将鼠标放在页面的正文上然后向上或向下拖动页面就像在 PDF 中一样基本上我希望能够上下拖动整个页面知道如何做到这一点吗我不想使用 jQuery UI 来做任何事好吧这是阶段 1 您需要在文档正文上
WPF无边框窗口带阴影VS2012风格

我正在尝试创建一个看起来像 Visual Studio 2012 的应用程序我使用过窗口Chrome http msdn microsoft com en us library system windows shell windowchr
symfony2 表单错误

The form s view data is expected to be of type scalar array or an instance of ArrayAccess but is an instance of class Ec
如何为一组图添加一个常见的 y 和 x 标签，并为 R 中该排列的几列添加标签？

我有 16 个地块 4x4 的排列该排列的最后一列是图例每行都通用我在下面添加了一个假代码来创建与我所拥有的类似的东西 library ggplot2 library cowplot library ggpubr theme set
JavaScript - 返回两个对象之间的差异？

有人可以告诉我在比较这样的数据时如何返回新数据吗使用普通 JavaScript 48 sid 48 name title 1 77 sid 77 name The blahblah title 与此相比 48 sid 48 name ti
在 Maven 的测试范围内从 Eclipse 运行 caliper

我在 Eclipse 中有一个 Java 项目在我的项目中包含 JUnit 测试src test目录我还使用 Caliper 微基准测试添加了一个类并且我希望能够从 Eclipse 中运行这些测试由于 Caliper 代码是测试代码
如何解决“...在此字体的编码中不可用”？

所以我正在使用 PDFBox 来填写一些 pdf 到目前为止一切都很棒我用 Avenir Light 字体创建了一个 pdf 表单我可以填写它但是刚才出现的问题是当我尝试使用以下字母填充 pdf 时我收到以下错误 U 0142
集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台

我陷入了一个需要快速解决的问题我已经阅读了许多关于 Spark 集群部署模式的帖子和教程但我对这种方法一无所知因为我被困了几天我的用例我有很多使用 spark2 submit 命令提交的 Spark 作业提交后我需要在控制台中打

集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台

集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台 的相关文章

随机推荐

热门标签

集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台的相关文章