spark集群启动后WorkerUI界面看不到Workers解决

2023-11-02

前话

我有三台机分别是:

192.168.238.129 master
192.168.238.130 slave2
192.168.238.131 slave1

spark 版本是2.0.2,hosts文件已经配置上面参数
最近在搭spark集群的时候,成功启动集群,但是访问master的WorkerUI界面却看不到子节点,也就是worker id那里为空的,如图:
这里写图片描述
解决这个问题,关键是改spark的conf下面的spark-env.sh文件:
注意点就是,下面的master的相关配置必须是ip,之前填master,能启动,但是界面看不到worker。
master配置:

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=192.168.238.129
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=192.168.238.129
export SPARK_LOCAL_IP=192.168.238.129
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

slave1的配置

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=192.168.238.129
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=192.168.238.129
export SPARK_LOCAL_IP=slave1
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

slave2的配置

export JAVA_HOME=/opt/jdk1.7.0_80
export SCALA_HOME=/opt/scala-2.10.7
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=master
export SPARK_LOCAL_IP=slave2
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.6/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.7.6/bin/hadoop classpath)
export SPARK_EXECUTOR_MEMORY=1G 
export SPARK_WORKER_CORES=2

从上面配置会发现主要是master的必须用ip,其他的可用可不用ip
成功启动日志:

[hadoop@master spark-2.0.2-bin-hadoop2.7]$ ./sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out

失败启动日志:
失败的日志会记录在logs,命令里已经指出是哪个log了。可以自己去看log找出原因

[hadoop@master spark-2.0.2-bin-hadoop2.7]$ ./sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out
slave1: failed to launch org.apache.spark.deploy.worker.Worker:
slave1: full log in /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: failed to launch org.apache.spark.deploy.worker.Worker:
slave2: full log in /opt/spark-2.0.2-bin-hadoop2.7/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out

修改后重新启动后的界面:
这里写图片描述

缺点,显示的是ip,不是其他主机的名字

后话

下面内容只作为讨论用。
当改了master的配置不用ip,直接填写master的时候,如下面的配置,发现master能成功启动,但是slave节点都是报错的,说连不上master,但是直接ping也能通,不知道是什么问题?报错信息,可用在spark目录下的logs文件里看到

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_HOST=master

报错日志如下:

18/06/22 16:33:18 WARN worker.Worker: Failed to connect to master master:7077
org.apache.spark.SparkException: Exception thrown in awaitResult
    at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75)
    at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36)
    at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
    at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96)
    at org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$1$$anon$1.run(Worker.scala:216)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Failed to connect to master/192.168.238.129:7077
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:228)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:179)
    at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:197)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:191)
	at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
    ... 4 more
Caused by: java.net.ConnectException: 拒绝连接: master/192.168.238.129:7077
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:744)
    at io.netty.channel.socket.nio.NioSocketChannel.doFinishConnect(NioSocketChannel.java:224)
    at io.netty.channel.nio.AbstractNioChannel$AbstractNioUnsafe.finishConnect(AbstractNioChannel.java:289)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:528)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    ... 1 more
18/06/22 16:33:25 INFO worker.Worker: Retrying connection to master (attempt # 1)
18/06/22 16:33:25 INFO worker.Worker: Connecting to master master:7077...
18/06/22 16:33:25 WARN worker.Worker: Failed to connect to master master:7077
org.apache.spark.SparkException: Exception thrown in awaitResult
    at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75)
    at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36)
    at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
	at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)
    at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96)
    at org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$1$$anon$1.run(Worker.scala:216)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Failed to connect to master/192.168.238.129:7077
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:228)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:179)
    at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:197)
    at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:191)
	at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
    ... 4 more

但是查看进程又是启动的

[hadoop@slave2 conf]$ jps
7514 Worker
7583 Jps
4485 DataNode
[hadoop@slave2 conf]$ 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

spark集群启动后WorkerUI界面看不到Workers解决 的相关文章

随机推荐

  • npm install 后序流程图记录

    随笔记录
  • 史上最全 Appium 自动化测试从入门到框架实战精华学习笔记(三)

    本文为霍格沃兹测试学院学员学习笔记 进阶学习文末加群 本系列文章汇总了从 Appium 自动化测试从基础到框架高级实战中 所涉及到的方方面面的知识点精华内容 如下所示 希望对大家快速总结和复习有所帮助 Appium 自动化测试从基础到框架实
  • elementPlus学习(持续更新)

    ElementPlus 前言 form表单 校验 以下内容不写函数字样的都是属性 prop rules show message inline message status icon require asterisk position sc
  • PHY芯片的使用(一)之基本概念讲解(MII相关)2

    今天想和大家交流一下MAC和PHY之间的接口MII MII Media Independent Interface 是介质无关接口 MII接口定义了在MAC层和物理层之间传送数据和控制状态等信息的接口 它是10M和100M兼容的接口 经过扩
  • 数字预失真技术基本原理

    功率放大器在通信系统中是一个及其重要的组件 其主要功能是将调制后的频带信号进行功率放大 使其满足发送端天线发射所需要的发射功率需求 并保证系统接收端可以采集到功率较大的信号 满足通信信道所要求的功率需求 而随着射频功率放大器发射功率的不断提
  • React - Mobx [learning......]

    import observer from mobx react Mobx安装 learning
  • 字符串中找出连续最长的数字串

    1 题目描述 读入一个字符串str 输出字符串str中的连续最长的数字串 2 输入输出示例 给一个输入abc123nj5nk88990wze这里面最长的数字串是88990 并将其输出 3 思路分析 1 首先输入是一个字符串 我们在处理的时候
  • How to Parse XML in C++

    hyperlink
  • 百度地图定位

    1 审请key 2 看demo 注意 定册定位Serveice 不同的demo使用时不一样 因为jar包不同
  • xml 模块(了解)

    本文来自 https www cnblogs com yang1333 articles 12609714 html 3177870913 1 XML文档模板
  • 蓝桥杯真题:寻找2020

    原题里边其实是一个300 300的序列 读进来之后对每一个点作为起点判断一遍四种情况就好了 代码如下所示 include
  • 缓存那些事

    前言 一般而言 现在互联网应用 网站或App 的整体流程 可以概括如图1所示 用户请求从界面 浏览器或App界面 到网络转发 应用服务再到存储 数据库或文件系统 然后返回到界面呈现内容 随着互联网的普及 内容信息越来越复杂 用户数和访问量越
  • 联想计算机游戏本,2021十大游戏本排行(最佳游戏笔记本电脑推荐)

    第五名 HP 惠普 傲慢Omen X 推荐理由 惠普的轻薄办公笔记本做得非常出色 在美国 消费者报告 中获得了非常高的评价 其机型占了CR推荐中的1 5左右 其游戏本也不遑多让 旗下的Omen X 暗影精灵系列口碑都相当不错 Omen 17
  • ARCore之路:HelloAR项目例子分析

    项目效果 通过相机扫描环境中的平面 它会生成上图中的白色网格 可通过点击白色网格来生成三维模型 下图是项目中的节点 下面将从挑选一些节点来分析 其中 Environmental Light 节点是灯光 EventSystem节点是控制输入输
  • wandb在pytorch lightning中的使用

    文章目录 使用前提 使用解析 初始化 模型超参数保存 记录其他配置参数 记录梯度 参数直方图和模型拓扑 记录metric 记录metric的最小值 最大值 记录图像 文本等 记录图像 记录文本 记录表格数据 在多GPU的情况下使用pytor
  • Unity Hub无法登陆的两种终极解决办法

    最近换了个电脑 需要重装Unity 然后unity hub 怎么都无法登陆 登陆不了就不能激活personal license 试了很多次 包括unity hub 2 5 8 和unity hub 3 3都不行 真的是很崩溃 因为是公司的电
  • X86cpu运行的什么格式代码? ELF还是Bin ?

    ELF文件是一种格式 我们使用gcc编译出来的 o文件 和链接后生成的 out文件一般都是ELF格式的文件 Bin文件一般指的是连接器ld b binary链接出来的或者用objcopy b抽出来的文件 ELF和Bin文件都是二进制文件 b
  • 关系型数据库-MySQL:连接数据库

    连接数据库常用选项 h 指定服务器地址 u 指定登录用户名 P 指定服务端口号 S 指定套接字路径 D 指定要登录的数据库 C 数据压缩传输 e 非交互式执行sql语句 E 查询结果纵向显示 等同于mysql提示符下的 G 1 交互式登录本
  • python为什么要创建虚拟环境

    最近在学习新的知识 需要用到tensorflow 我在网上寻找安装教程 遇到了很多疑问 大部分的教程都说需要开启虚拟幻境 我不理解为什么需要虚拟环境 后来慢慢理解 原来在不同的项目中 需要使用到不同版本的python解释器之类的 不能每次都
  • spark集群启动后WorkerUI界面看不到Workers解决

    前话 我有三台机分别是 192 168 238 129 master 192 168 238 130 slave2 192 168 238 131 slave1 spark 版本是2 0 2 hosts文件已经配置上面参数 最近在搭spar