我陷入了一个需要快速解决的问题。我已经阅读了许多关于 Spark 集群部署模式的帖子和教程,但我对这种方法一无所知,因为我被困了几天。
我的用例:- 我有很多使用“spark2-submit”命令提交的 Spark 作业,提交后我需要在控制台中打印应用程序 ID。 Spark作业采用集群部署模式提交。 (在正常客户端模式下,它被打印)
创建解决方案时我需要考虑的要点:- 我不应该更改代码(因为这会花费很长时间,因为有许多应用程序正在运行),我只能提供 log4j 属性或一些自定义编码。
我的方法:-
1)我尝试更改log4j级别和各种log4j参数,但日志记录仍然转到集中日志目录。
来自我的 log4j.properties 的部分:-
log4j.logger.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend=ALL,console
log4j.appender.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend.Target=System.out
log4j.logger.org.apache.spark.deploy.SparkSubmit=ALL
log4j.appender.org.apache.spark.deploy.SparkSubmit=console
log4j.logger.org.apache.spark.deploy.SparkSubmit=TRACE,console
log4j.additivity.org.apache.spark.deploy.SparkSubmit=false
log4j.logger.org.apache.spark.deploy.yarn.Client=ALL
log4j.appender.org.apache.spark.deploy.yarn.Client=console
log4j.logger.org.apache.spark.SparkContext=WARN
log4j.logger.org.apache.spark.scheduler.DAGScheduler=INFO,console
log4j.logger.org.apache.hadoop.ipc.Client=ALL
2)我还尝试添加自定义侦听器,并且我能够在应用程序完成后获取 Spark 应用程序 ID,但不能获取控制台。
代码逻辑:-
public void onApplicationEnd(SparkListenerApplicationEnd arg0)
{
for (Thread t : Thread.getAllStackTraces().keySet())
{
if (t.getName().equals("main"))
{
System.out.println("The current state : "+t.getState());
Configuration config = new Configuration();
ApplicationId appId = ConverterUtils.toApplicationId(getjobUId);
// some logic to write to communicate with the main thread to print the app id to console.
}
}
}
3)我已将spark.eventLog启用为true,并在HDFS中指定一个目录来从spark-submit命令写入事件日志。
如果有人可以帮助我找到解决方案,那将非常有帮助。或者,如果我做错了什么,任何见解都会对我有帮助。
Thanks.