当我使用带有主纱线和部署模式集群的spark-submit提交spark作业时,它不会打印/返回任何applicationId,并且一旦作业完成,我必须手动检查MapReduce jobHistory或spark HistoryServer以获取作业详细信息。
我的集群被许多用户使用,需要花费很多时间才能在 jobHistory/HistoryServer 中找到我的作业。
有什么办法可以配置spark-submit
返回applicationId?
注意:我发现了许多类似的问题,但他们的解决方案使用以下方法在驱动程序代码中检索 applicationIdsparkcontext.applicationId
并且如果master yarn and deploy-mode cluster
该驱动程序还作为 MapReduce 作业的一部分运行,任何日志或系统输出都会打印到远程主机日志。
以下是我用来实现此目的的方法:
- 将应用程序 ID 保存到 HDFS 文件。 (@zhangtong 在评论中建议)。
- 从驱动程序发送带有 applicationId 的电子邮件警报。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)