hadoopyarn

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null

apachespark hadoopyarn

异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master

Hadoop apachespark PySpark hadoopyarn

在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor

apachespark hadoopyarn

HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind

Hadoop SparkStreaming hadoopyarn ResourceManager

纱线堆的使用量随着时间的推移而增长

我们在 AWS EMR 上运行 Spark Streaming 作业该作业将稳定运行 10 到 14 小时然后崩溃并且 stderr stdout 或 Cloudwatch 日志中没有明显错误在此崩溃之后任何重新启动作业的尝试都将

apachespark heapmemory SparkStreaming hadoopyarn amazonemr

Spark任务仅在一个执行器上运行

大家好首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in

python apachespark elasticsearch PySpark hadoopyarn

Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55

Hadoop MapReduce Cloudera hadoopyarn

如何处理 YARN MapReduce 作业的容器故障？

YARN 中如何处理软件硬件故障具体来说如果容器发生故障崩溃会发生什么容器和任务失败由节点管理器处理当容器失败或死亡时节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行如果应用程序主机发

Hadoop MapReduce hadoopyarn Hadoop2

FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a

Hadoop MapReduce hadoopyarn

如何使用spark-submit为Spark作业选择队列？

有没有办法提供参数或设置来选择我希望运行 Spark submit 作业的队列通过使用 queue 因此火花提交作业的一个示例是 Spark submit master YARN conf Spark executor memory 4

apachespark hadoopyarn

如何使用 JMX 远程连接到 Dataproc 上的 Spark 工作线程

我可以通过添加以下内容来很好地连接到驱动程序 spark driver extraJavaOptions Dcom sun management jmxremote Dcom sun management jmxremote port 91

apachespark hadoopyarn googleclouddataproc

如何从容器内部获取 YARN ContainerId？

我正在 YARN 上运行 Spark 作业并且希望获取 YARN 容器 ID 作为在一组 Spark 作业中生成唯一 ID 的要求的一部分我可以看到容器 getId https hadoop apache org docs r2 6 0

Hadoop apachespark hadoopyarn

Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出

scala Hadoop apachespark HDFS hadoopyarn

Apache Hadoop Yarn - 核心利用率不足

无论我如何修改设置yarn site xml即使用以下所有选项 yarn scheduler minimum allocation vcores yarn nodemanager resource memory mb yarn nodema

Hadoop apachespark hadoopyarn ResourceManager

如何使用 CDH4 和 Yarn 查看 Hadoop 作业历史记录和日志？

我使用 Yarn 下载了 Hadoop 的 CDH4 tar 作业运行良好但我不知道在哪里查看作业日志在 MRv1 中我只需访问 JobTracker Web 应用程序它就有工作历史记录也可以从这里访问各个作业的日志或者转到lo

configuration Hadoop Cloudera hadoopyarn

如何防止 EMR Spark 步骤重试？

我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤我的问题是如果 Spark 应用程序失败则 YARN 会尝试再次运行该应用程序在相同的 EMR 步骤下我怎样才能防止这

amazonwebservices apachespark hadoopyarn EMR

仅当尝试打开假定的缓存文件时，Hadoop 2 IOException

我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示并抛出

Java Hadoop Bigdata hadoopyarn

Spark：连接拒绝纱线上的 webapp 代理

我在 docker 容器上使用 Spark 和 hadoop 我有 3 个容器主容器和 2 个从容器一切工作正常但我在运行任务时遇到 Spark 代理 Web 应用程序问题我可以连接到yarn webapp 但nhttp 172 20

Hadoop apachespark Docker hadoopyarn networkinterface

YARN 作业历史记录不可访问

我正在使用来自源代码的最新 hadoop 版本 3 0 0 我已经启动并运行了时间轴服务并配置了 hadoop 以将其用于作业历史记录但是当我单击资源管理器 UI 中的历史记录时出现以下错误 HTTP ERROR 404 Probl

Hadoop hadoopyarn

找不到 Pyspark 模块

我正在尝试在 Yarn 中执行一个简单的 Pyspark 作业这是代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster yarn client set

python Hadoop apachespark hadoopyarn PySpark