spark集群启动后WorkerUI界面看不到Workers解决

2023-11-02

前话

我有三台机分别是：

192.168.238.129 master
192.168.238.130 slave2
192.168.238.131 slave1

spark 版本是2.0.2，hosts文件已经配置上面参数
最近在搭spark集群的时候，成功启动集群，但是访问master的WorkerUI界面却看不到子节点，也就是worker id那里为空的，如图：
这里写图片描述
解决这个问题，关键是改spark的conf下面的spark-env.sh文件：
注意点就是，下面的master的相关配置必须是ip，之前填master，能启动，但是界面看不到worker。
master配置：

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=192.168.238.129
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=192.168.238.129
export SPARK_LOCAL_IP=192.168.238.129
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

slave1的配置

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=192.168.238.129
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=192.168.238.129
export SPARK_LOCAL_IP=slave1
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

slave2的配置

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=master
export SPARK_LOCAL_IP=slave2
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

从上面配置会发现主要是master的必须用ip，其他的可用可不用ip
成功启动日志：

[hadoop@master spark-2.0.2-bin-hadoop2.7]$ ./sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out

失败启动日志：
失败的日志会记录在logs，命令里已经指出是哪个log了。可以自己去看log找出原因

[hadoop@master spark-2.0.2-bin-hadoop2.7]$ ./sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out
slave1: failed to launch org.apache.spark.deploy.worker.Worker:
slave1: full log in /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: failed to launch org.apache.spark.deploy.worker.Worker:
slave2: full log in /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out

修改后重新启动后的界面：
这里写图片描述

缺点，显示的是ip，不是其他主机的名字

后话

下面内容只作为讨论用。
当改了master的配置不用ip，直接填写master的时候，如下面的配置，发现master能成功启动，但是slave节点都是报错的，说连不上master，但是直接ping也能通，不知道是什么问题？报错信息，可用在spark目录下的logs文件里看到

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=master

报错日志如下：

18/06/22 16:33:18 WARN worker.Worker: Failed to connect to master master:7077
org.apache.spark.SparkException: Exception thrown in awaitResult
    at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75)
    at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36)
    at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
    at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96)
    at org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$1$$anon$1.run(Worker.scala:216)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Failed to connect to master/192.168.238.129:7077
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:228)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:179)
    at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:197)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:191)
	at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
    ... 4 more
Caused by: java.net.ConnectException: 拒绝连接: master/192.168.238.129:7077
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:744)
    at io.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:224)
    at io.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:289)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:528)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    ... 1 more
18/06/22 16:33:25 INFO worker.Worker: Retrying connection to master (attempt # 1)
18/06/22 16:33:25 INFO worker.Worker: Connecting to master master:7077...
18/06/22 16:33:25 WARN worker.Worker: Failed to connect to master master:7077
org.apache.spark.SparkException: Exception thrown in awaitResult
    at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75)
    at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36)
    at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
    at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96)
    at org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$1$$anon$1.run(Worker.scala:216)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Failed to connect to master/192.168.238.129:7077
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:228)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:179)
    at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:197)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:191)
	at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
    ... 4 more

但是查看进程又是启动的

[hadoop@slave2 conf]$ jps
7514 Worker
7583 Jps
4485 DataNode
[hadoop@slave2 conf]$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

spark

spark集群启动后WorkerUI界面看不到Workers解决的相关文章

Windows 上的 DLL Main 与 Windows 上的 DLL Main Linux 上的 __attribute__((constructor)) 入口点

考虑代码 EXE int main printf Executable Main loading library n ifdef HAVE WINDOWS HMODULE lib LoadLibraryA testdll dll elif
Symfony 权限被拒绝

谁能帮我解决我收到的以下错误消息我终于在虚拟机上安装了 Symfony 它似乎工作正常除了我偶尔收到这样的消息 1 2 ContextErrorException Warning SessionHandler read open var
简单的awk命令问题（FS、OFS相关）

我尝试重新组织包含以下内容的文件的格式 gt Humanl chr16 86430087 86430726 element 1 positive gt Humanl chr16 85620095 85621736 element 2 neg
如何在 Linux Bash 中通过 SFTP 将数据传输到远程文件而不将数据存储在本地文件中？

我需要能够通过 SFTP 将数据从内存传输到远程文件我最初是通过 SSH 进行此操作的在工作时发现我没有对远程位置的 SSH 访问权限只有 SFTP 访问权限下面是我的原始 SSH 代码的示例 echo secret data ss
如何使用终端打开“-”虚线文件名？

我尝试了 gedit nano vi leafpad 和其他文本编辑器它无法打开我尝试了 cat 和其他文件查找命令我向你保证这是一个文件而不是目录这种方法有很多误解因为使用作为参数指的是标准输入标准输出 i e 开发标准输
WSL gprof 报告零次

我正在尝试在 Windows 10 上的 WSL 中使用 gprof 我没有预料到会遇到任何困难因为上次我在 Windows 7 上的 Ubuntu 虚拟盒中使用它时它工作得很好与以前一样遵循来自https www thegeekstu
如何在shell脚本中扩展相对路径

我正在编写一个脚本来使用 bash 在 linux 2 6 上设置环境变量因此该脚本包含如下命令 export SRC DIR export LIBPATH SRC DIR lib 问题是当我尝试 echo LIBPATH 时它显示
在linux中将数据“广播”到多个进程的规范方法？

我有一个应用程序需要将数据流从一个进程发送到多个读取器每个读取器都需要查看自己的流副本这是相当高的速率 100MB s 并不罕见因此我希望尽可能避免重复在我的理想世界中 Linux 应该有支持多个读取器的命名管道并为常见的单读取器
如何重新安装cudnn？

安装Cudnn 4 0 4后我发现如果我想运行我下载的代码我需要更高版本的Cudnn 然后我下载 cudnn 7 0 linux x64 v4 0 prod tgz 并直接按以下顺序安装 sudo cp include cudnn h
gai_cancel() 需要很长时间才能成功

我正在尝试在 C 中异步查找域原因是我希望能够有效地添加超时期限以防系统无法查找域我遇到了 getaddrinfo a 命令所以我决定尝试一下然而在我的机器上取消任何不会成功的 dns 查找例如没有互联网连接时永远不会花费少
将条目添加到 Linux 内核 .config 文件

如何手动将 CONFIG XILINX FIXED DEVTREE ADDR y 行添加到 Linux 配置文件中当我构建内核时它不断被覆盖您可以通过以下方式构建make CONFIG XILINX FIXED DEVTREE ADDR
Cmake 错误未定义对“pthread_create”的引用

我对 cmake FindThreads 进行了测试这是我的源代码test cpp和CMakeLists txt include
我应该如何从非 root Debian Linux 守护进程登录？

我正在编写一个新的守护进程它将托管在 Debian Linux 上我发现 var log 具有仅 root 写入权限因此我的守护进程无法在那里写入日志文件但是如果它写入那里它似乎将获得自动日志轮转并且也按照用户期望的方式工作
如何在每个 xargs 命令之间休眠 1 秒？

例如如果我执行 ps aux awk print 1 xargs I echo 我想让 shell 在每次之间休眠 1 秒echo 如何更改我的 shell 命令您可以使用以下语法 ps aux awk print 1 xargs I
SDL/C++ OpenGL 程序，如何阻止 SDL 捕获 SIGINT

我在用SDL http www libsdl org 用于在 Linux 上运行的 OpenGL 应用程序我的问题是 SDL 正在捕获 SIGINT 并忽略它这是一个痛苦因为我正在通过屏幕会话进行开发并且我无法使用 CTRL C 终
使用 sysfs 的 Linux 用户空间 GPIO 中断

我想使用 sysfs 在用户空间上使用 GPIO 中断我使用这些命令 root at91 gpio109 gt echo 109 gt export root at91 gpio109 gt cd gpio109 root at91 gp
在Linux服务器中安装ZLIB

我要安装ZLIB http www techsww com tutorials libraries zlib installation installing zlib on ubuntu linux php在Linux服务器中我的服务器帐
在Linux上如何找到当前目录的所有直接子目录？

在Linux上如何找到当前目录的所有直接子目录最简单的方法是通过编写来利用 shell 通配功能echo 如果你喜欢使用ls 例如要应用格式排序选项请使其ls d 解释斜杠确保仅考虑目录而不考虑文件 Option d 列出目录本身
如何在不需要设置 LD_LIBRARY_PATH shell 变量的情况下输入“cargo run”？

我构建了一个 Rust 程序通过 C 接口调用 C 函数为了执行该程序我必须运行 export LD LIBRARY PATH
线程和 fork()。我该如何处理呢？ [复制]

这个问题在这里已经有答案了可能的重复多线程程序中的fork https stackoverflow com questions 1235516 fork in multi threaded program 如果我有一个使用 fork 的

随机推荐

npm install 后序流程图记录

随笔记录
史上最全 Appium 自动化测试从入门到框架实战精华学习笔记（三）

本文为霍格沃兹测试学院学员学习笔记进阶学习文末加群本系列文章汇总了从 Appium 自动化测试从基础到框架高级实战中所涉及到的方方面面的知识点精华内容如下所示希望对大家快速总结和复习有所帮助 Appium 自动化测试从基础到框架实
elementPlus学习（持续更新）

ElementPlus 前言 form表单校验以下内容不写函数字样的都是属性 prop rules show message inline message status icon require asterisk position sc
PHY芯片的使用（一）之基本概念讲解（MII相关）2

今天想和大家交流一下MAC和PHY之间的接口MII MII Media Independent Interface 是介质无关接口 MII接口定义了在MAC层和物理层之间传送数据和控制状态等信息的接口它是10M和100M兼容的接口经过扩
数字预失真技术基本原理

功率放大器在通信系统中是一个及其重要的组件其主要功能是将调制后的频带信号进行功率放大使其满足发送端天线发射所需要的发射功率需求并保证系统接收端可以采集到功率较大的信号满足通信信道所要求的功率需求而随着射频功率放大器发射功率的不断提
React - Mobx [learning......]

import observer from mobx react Mobx安装 learning
字符串中找出连续最长的数字串

1 题目描述读入一个字符串str 输出字符串str中的连续最长的数字串 2 输入输出示例给一个输入abc123nj5nk88990wze这里面最长的数字串是88990 并将其输出 3 思路分析 1 首先输入是一个字符串我们在处理的时候
How to Parse XML in C++

hyperlink
百度地图定位

1 审请key 2 看demo 注意定册定位Serveice 不同的demo使用时不一样因为jar包不同
xml 模块(了解)

本文来自 https www cnblogs com yang1333 articles 12609714 html 3177870913 1 XML文档模板
蓝桥杯真题：寻找2020

原题里边其实是一个300 300的序列读进来之后对每一个点作为起点判断一遍四种情况就好了代码如下所示 include
缓存那些事

前言一般而言现在互联网应用网站或App 的整体流程可以概括如图1所示用户请求从界面浏览器或App界面到网络转发应用服务再到存储数据库或文件系统然后返回到界面呈现内容随着互联网的普及内容信息越来越复杂用户数和访问量越
联想计算机游戏本,2021十大游戏本排行(最佳游戏笔记本电脑推荐)

第五名 HP 惠普傲慢Omen X 推荐理由惠普的轻薄办公笔记本做得非常出色在美国消费者报告中获得了非常高的评价其机型占了CR推荐中的1 5左右其游戏本也不遑多让旗下的Omen X 暗影精灵系列口碑都相当不错 Omen 17
ARCore之路：HelloAR项目例子分析

项目效果通过相机扫描环境中的平面它会生成上图中的白色网格可通过点击白色网格来生成三维模型下图是项目中的节点下面将从挑选一些节点来分析其中 Environmental Light 节点是灯光 EventSystem节点是控制输入输
wandb在pytorch lightning中的使用

文章目录使用前提使用解析初始化模型超参数保存记录其他配置参数记录梯度参数直方图和模型拓扑记录metric 记录metric的最小值最大值记录图像文本等记录图像记录文本记录表格数据在多GPU的情况下使用pytor
Unity Hub无法登陆的两种终极解决办法

最近换了个电脑需要重装Unity 然后unity hub 怎么都无法登陆登陆不了就不能激活personal license 试了很多次包括unity hub 2 5 8 和unity hub 3 3都不行真的是很崩溃因为是公司的电
X86cpu运行的什么格式代码？ ELF还是Bin ?

ELF文件是一种格式我们使用gcc编译出来的 o文件和链接后生成的 out文件一般都是ELF格式的文件 Bin文件一般指的是连接器ld b binary链接出来的或者用objcopy b抽出来的文件 ELF和Bin文件都是二进制文件 b
关系型数据库-MySQL：连接数据库

连接数据库常用选项 h 指定服务器地址 u 指定登录用户名 P 指定服务端口号 S 指定套接字路径 D 指定要登录的数据库 C 数据压缩传输 e 非交互式执行sql语句 E 查询结果纵向显示等同于mysql提示符下的 G 1 交互式登录本
python为什么要创建虚拟环境

最近在学习新的知识需要用到tensorflow 我在网上寻找安装教程遇到了很多疑问大部分的教程都说需要开启虚拟幻境我不理解为什么需要虚拟环境后来慢慢理解原来在不同的项目中需要使用到不同版本的python解释器之类的不能每次都
spark集群启动后WorkerUI界面看不到Workers解决

前话我有三台机分别是 192 168 238 129 master 192 168 238 130 slave2 192 168 238 131 slave1 spark 版本是2 0 2 hosts文件已经配置上面参数最近在搭spar

spark集群启动后WorkerUI界面看不到Workers解决

前话

后话

spark集群启动后WorkerUI界面看不到Workers解决 的相关文章

随机推荐

热门标签

spark集群启动后WorkerUI界面看不到Workers解决的相关文章