我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序。一段时间后,我在 Cloudera Manager 上看到一些错误。一些执行者会断开连接,并且这种情况会系统性地发生。我想调试该问题,但 YARN 未报告内部异常。
Exception from container-launch with container ID: container_1417503665765_0193_01_000003 and exit code: 1
ExitCodeException exitCode=1:
at org.apache.hadoop.util.Shell.runCommand(Shell.java:538)
at org.apache.hadoop.util.Shell.run(Shell.java:455)
at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)
at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:196)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:299)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:81)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
如何查看异常的堆栈跟踪?看来YARN只报告应用程序异常退出。有没有办法在 YARN 配置中查看 Spark 执行器日志?
检查 NodeManager 的yarn.nodemanager.log-dir
财产。这是Spark执行器容器运行时的日志位置。
请注意,当应用程序完成时,NodeManager 可能会删除文件(日志聚合)。查看此文档了解详细信息。http://hortonworks.com/blog/simplifying-user-logs-management-and-access-in-yarn/ http://hortonworks.com/blog/simplifying-user-logs-management-and-access-in-yarn/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)