4040 和 8080 上的 Web UI 有什么区别?

2023-12-20

有两种不同的 Web UI(一种仅适用于独立模式)。当我以独立模式启动 Spark 时,可以在端口 4040 上使用 Web UI 吗? (例子:spark-class.cmd org.apache.spark.deploy.master.Master- web ui 8080 可以工作,4040 - 不能。)这些 UI 之间的主要区别是什么?

我是否可以启动 Spark(没有 hadoop、hdfs、yarn 等),保持它并将我的 jars(类)提交到其中?我想在工作完成后查看工作统计数据。我正在尝试这样的事情:

Server: Spark\bin>spark-class.cmd org.apache.spark.deploy.master.Master
Worker: Spark\bin>spark-class.cmd org.apache.spark.deploy.worker.Worker spark://169.254.8.45:7077 --cores 4 --memory 512M
Submit: Spark\bin>spark-submit.cmd --class demo.TreesSample --master spark://169.254.8.45:7077 file:///E:/spark-demo/target/demo.jar

它运行了。它会在端口 4040 上获取新的 WebUI 以执行此任务。我在 8080 上的 Master ui 中看不到任何内容。

目前我使用的是win7 x64,spark-1.5.2-bin-hadoop2.6。如果有必要的话我可以切换到linux。


您应该能够使用以下命令更改独立 Master 的 Web UI 端口spark.master.ui.port or SPARK_MASTER_WEBUI_PORT如中所述仅为网络安全/独立模式配置端口 http://spark.apache.org/docs/latest/security.html#standalone-mode-only.

Standalone Master 的 Web UI 是集群管理器的管理控制台(它恰好是 Apache Spark 的一部分,但也可能是作为 Hadoop YARN 和 Apache Mesos 的独立产品)。话虽如此,人们常常会混淆这两个 Web UI 的共同点,而答案是否定的。

Spark 驱动程序的 Web UI 用于显示计算的进度(作业、阶段、RDD 持久性存储、广播、累加器),而独立 Master 的 Web UI 用于让您了解“操作环境”(又名 Spark)的当前状态独立集群)。

我将有关历史服务器的问题的另一部分留给@苏米特的回答 https://stackoverflow.com/a/34584012/1305344.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

4040 和 8080 上的 Web UI 有什么区别? 的相关文章

  • fetchsize和batchsize对Spark的影响

    我想通过以下方式控制 RDB 的读写速度Spark直接 但标题已经透露的相关参数似乎不起作用 我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用 或者它们确实会影响阅读和写作方面 因为测量结果基于规模是
  • 如何在Spark结构化流中指定批处理间隔?

    我正在使用 Spark 结构化流并遇到问题 在 StreamingContext DStreams 中 我们可以定义批处理间隔 如下所示 from pyspark streaming import StreamingContext ssc
  • 使用spark phoenix从表中读取rdd分区号为1

    当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
  • AWS EMR Spark Python 日志记录

    我正在 AWS EMR 上运行一个非常简单的 Spark 作业 但似乎无法从我的脚本中获取任何日志输出 我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
  • 如何为 Spark RDD 中的元素分配唯一的连续编号

    我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中 该算法需要用户和产品是数字 而我的是字符串用户名和字符串SKU 现在 我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
  • 在 IntelliJ 中运行 Spark 字数统计

    我花了几个小时浏览 You Tube 视频和教程 试图了解如何在 Scala 中运行 Spark 字数统计程序 并将其转换为 jar 文件 我现在完全糊涂了 我运行了 Hello World 并且了解了如何在 Apache spark sp
  • 行类型 Spark 数据集的编码器

    我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作 本
  • 必须包含 log4J,但它会导致 Apache Spark shell 中出现错误。如何避免错误?

    由于我必须将 jar 包含到 Spark 代码中 因此我想请求帮助找出解决此问题而不删除 log4j 导入的方法 简单代码如下 cp symjar log4j 1 2 17 jar import org apache spark rdd v
  • 如何并行运行多个Spark作业?

    一个 Spark 有一个 Oracle 查询 所以我必须并行运行多个作业 以便所有查询同时触发 如何并行运行多个作业 引用官方文档作业调度 http spark apache org docs latest job scheduling h
  • Spark中的count和collect函数抛出IllegalArgumentException

    当我使用时抛出此异常时 我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效 我试图搜索这个问题 但没有找到原因 看来RDD的分区有问题 有任何想法吗 先感谢您 sc stop sc Spark
  • 当我在 scala 中使用全局映射变量而不广播时会发生什么

    在 scala 中 当我在 scala 中使用全局映射变量而不进行广播时会发生什么 例如 如果我使用变量collect 例如collectAsMap 看来它是一个全局变量 我可以在所有地方使用它RDD mapValues 函数无需显式广播它
  • 与 aws-java-sdk 链接时读取 json 文件时 Spark 崩溃

    Let config json是一个小的 json 文件 toto 1 我编写了一个简单的代码来读取 json 文件sc textFile 因为文件可以在S3 本地或HDFS上 所以textFile很方便 import org apache
  • 使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

    我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南 但是 我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件 任何建议 文档详细信息都会有
  • Spark Driver 内存和 Application Master 内存

    我是否正确理解客户端模式的文档 客户端模式与驱动程序在应用程序主机中运行的集群模式相反 在客户端模式下 驱动程序和应用程序主机是单独的进程 因此spark driver memory spark yarn am memory一定小于机器内存
  • 如何将参数传递给用户定义函数?

    我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
  • Spark:连接两个相同分区的数据帧时防止洗牌/交换

    我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌 并让所有连接发生 而无需在 Spark 执行器之间洗牌 交换数据 为此 我创建了另一个名为visitor parti
  • Spark中RDD转换的结果是什么?

    谁能解释一下 结果是什么RDD 转换 它是新的数据集 数据副本 还是只是新的指针集 用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系 依赖关系只是产生结果 程序 的步骤 谱系链 依赖字符串 中的每个 RDD 都有一个计算其数
  • 如何区分spark中的操作是转换还是动作?

    最近在学习spark 对transformation和action操作很困惑 我阅读了spark文档和一些关于spark的书籍 我知道action会导致spark作业在集群中执行 而transformation则不会 但是spark的api
  • Pyspark 应用程序仅部分利用 dataproc 集群资源

    我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录 上运行 UDF 使用常规 python lambda 函数大约需要 100 小时 我创建了一个 Google Dataproc 集群 其中包含 20 个工
  • Spark中DataFrame、Dataset、RDD的区别

    我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花 你能将其中一种转换为另一种吗 首先是DataFrame是从SchemaRDD 是的

随机推荐