如何在 Apache-Spark 中连接主从? (独立模式)

2024-01-10

我在用着Spark独立模式 https://spark.apache.org/docs/latest/spark-standalone.html以独立模式安装 Spark 的教程页面。

1-我通过以下方式开始了大师生涯:

./sbin/start-master.sh

2-我通过以下方式启动了一名工人:

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://ubuntu:7077

Note: spark://ubuntu:7077是我的主人名字,我可以在其中看到它Master-WebUI.

Problem:通过第二条命令,worker 成功启动。但它无法与主人交往。它反复尝试,然后给出以下消息:

15/02/08 11:30:04 WARN Remoting: Tried to associate with unreachable    remote address [akka.tcp://sparkMaster@ubuntu:7077]. Address is now gated for 5000 ms, all messages to this address will be delivered to dead letters. Reason: Connection refused: ubuntu/127.0.1.1:7077
15/02/08 11:30:04 INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisterWorker] from Actor[akka://sparkWorker/user/Worker#-1296628173] to Actor[akka://sparkWorker/deadLetters] was not delivered. [20] dead letters encountered. This logging can be turned off or adjusted with configuration settings 'akka.log-dead-letters' and 'akka.log-dead-letters-during-shutdown'.
15/02/08 11:31:15 ERROR Worker: All masters are unresponsive! Giving up.

问题是什么?

Thanks


我通常从Spark-env.sh https://github.com/apache/spark/blob/master/conf/spark-env.sh.template模板。我设置了我需要的属性。对于简单集群,您需要:

  • SPARK_MASTER_IP

然后,在与spark-env.sh和slaves ip相同的目录中创建一个名为“slaves”的文件(每行一个)。确保您通过 ssh 到达所有从站。

最后,复制此配置在集群的每台机器上。然后执行start-all.sh脚本启动整个集群并尝试spark-shell来检查您的配置。

> sbin/start-all.sh
> bin/spark-shell
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Apache-Spark 中连接主从? (独立模式) 的相关文章

  • PySpark DataFrame 上分组数据的 Pandas 式转换

    如果我们有一个由一列类别和一列值组成的 Pandas 数据框 我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
  • 如何在 Spark 数据帧 groupBy 中执行 count(*)

    我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
  • 为什么 Spark 退出并显示 exitCode: 16?

    我将 Spark 2 0 0 与 Hadoop 2 7 一起使用 并使用纱线集群模式 每次 我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
  • 如何在每行中添加行号?

    假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
  • Spark Python:标准缩放器错误“不支持... SparseVector”

    我又撞到了堵墙 我是一个新手 所以我不得不再次依赖你强大的知识 我从一个数据集开始 如下所示 user account id user lifetime user no outgoing activity in days user acco
  • Spark Dataframe/Parquet 中的枚举等效项

    我有一个包含数亿行的表 我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘 我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化 这些列中很大一部分是字符串值 它们可能很长 但值通常也
  • 如何从DataFrame中获取最后一行?

    我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的 我想获取DataFrame的最后一行 我该怎么办 这是我的输入 value timestamp 1 1 4 2 3 3
  • 在 pyspark 中包装 java 函数

    我正在尝试创建一个用户定义的聚合函数 我可以从 python 调用它 我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
  • 如何在 pySpark 数据框中添加行 ID [重复]

    这个问题在这里已经有答案了 我有一个 csv 文件 我在 pyspark 中将其转换为 DataFrame df 经过一番改造后 我想在 df 中添加一列 这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
  • 如何强制 Spark 执行代码?

    我如何强制 Spark 执行对 map 的调用 即使它认为由于其惰性求值而不需要执行它 我试过把cache 与地图调用 但这仍然没有解决问题 我的地图方法实际上将结果上传到 HDFS 所以 它并非无用 但 Spark 认为它是无用的 简短回
  • 一起调用distinct和map会在spark库中抛出NPE

    我不确定这是否是一个错误 所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
  • 如何调试 Spark 工作线程上的映射函数中的错误?

    我是 Spark 新手 正在努力寻找自己的方法 我有一个 Spark 应用程序 它在dataset 此地图功能可能会因主要与数据相关的原因而失败 我怎样才能获得一些关于问题所在的有意义的信息 我不知道从哪里开始 非常感谢 如果您想编写单元测
  • 如何对 RDD 进行分区

    我有一个文本文件 其中包含大量由空格分隔的随机浮动值 我正在将此文件加载到 scala 中的 RDD 中 这个RDD是如何分区的 另外 是否有任何方法可以生成自定义分区 以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
  • 根据条件组合 Spark 数据帧列中的多行

    我正在尝试根据条件组合 Spark 数据框中的多行 这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
  • 从 Spark 数据帧中过滤大量 ID

    我有一个大型数据框 其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行 最直接的方
  • 如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中?

    当我尝试在 Spark conf 中设置包依赖项 spark sftp 时 我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
  • Spark Collect_list 并限制结果列表

    我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
  • 更改spark_temporary目录路径

    是否可以更改 temporarySpark在写入之前保存临时文件的目录 特别是 由于我正在编写表的单个分区 因此我希望临时文件夹位于分区文件夹内 是否可以 由于其实现原因 无法使用默认的 FileOutputCommiter FileOut
  • Spark 2.1无法在CSV上写入Vector字段

    当我将代码从 Spark 2 0 迁移到 2 1 时 我偶然发现了与 Dataframe 保存相关的问题 这是代码 import org apache spark sql types import org apache spark ml l
  • 使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

    我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu

随机推荐