hadoopyarn

Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出

scala Hadoop apachespark HDFS hadoopyarn

Apache Hadoop Yarn - 核心利用率不足

无论我如何修改设置yarn site xml即使用以下所有选项 yarn scheduler minimum allocation vcores yarn nodemanager resource memory mb yarn nodema

Hadoop apachespark hadoopyarn ResourceManager

如何使用 CDH4 和 Yarn 查看 Hadoop 作业历史记录和日志？

我使用 Yarn 下载了 Hadoop 的 CDH4 tar 作业运行良好但我不知道在哪里查看作业日志在 MRv1 中我只需访问 JobTracker Web 应用程序它就有工作历史记录也可以从这里访问各个作业的日志或者转到lo

configuration Hadoop Cloudera hadoopyarn

如何防止 EMR Spark 步骤重试？

我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤我的问题是如果 Spark 应用程序失败则 YARN 会尝试再次运行该应用程序在相同的 EMR 步骤下我怎样才能防止这

amazonwebservices apachespark hadoopyarn EMR

仅当尝试打开假定的缓存文件时，Hadoop 2 IOException

我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示并抛出

Java Hadoop Bigdata hadoopyarn

Spark：连接拒绝纱线上的 webapp 代理

我在 docker 容器上使用 Spark 和 hadoop 我有 3 个容器主容器和 2 个从容器一切工作正常但我在运行任务时遇到 Spark 代理 Web 应用程序问题我可以连接到yarn webapp 但nhttp 172 20

Hadoop apachespark Docker hadoopyarn networkinterface

YARN 作业历史记录不可访问

我正在使用来自源代码的最新 hadoop 版本 3 0 0 我已经启动并运行了时间轴服务并配置了 hadoop 以将其用于作业历史记录但是当我单击资源管理器 UI 中的历史记录时出现以下错误 HTTP ERROR 404 Probl

Hadoop hadoopyarn

找不到 Pyspark 模块

我正在尝试在 Yarn 中执行一个简单的 Pyspark 作业这是代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster yarn client set

python Hadoop apachespark hadoopyarn PySpark

Spark失败：引起：org.apache.spark.shuffle.FetchFailedException：框架太大：5454002341

我正在为确定父子项的表生成层次结构以下是使用的配置即使在收到有关太大框架的错误后也是如此火花特性 conf spark yarn executor memoryOverhead 1024mb conf yarn nodemanager

apachespark apachesparksql hadoopyarn

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题我首先在本地计算机上测试了我的代码单节点本地文件一切都按预期工作 from pyspark sql import SparkSession sp

Hadoop apachespark PySpark HDFS hadoopyarn

如何在 Yarn 上配置应用程序驱动程序自动重启

来自 Spark 编程指南要自动从驱动程序故障中恢复用于运行流应用程序的部署基础架构必须监视驱动程序进程并在驱动程序失败时重新启动驱动程序不同的集群管理器有不同的工具来实现这一点火花独立火花独立 Spark应用程序驱动程序可以提

apachespark hadoopyarn SparkStreaming

Spark在本地运行但在YARN中运行时找不到文件

我一直在尝试提交一个简单的 python 脚本来使用 YARN 在集群中运行它当我在本地执行作业时没有问题一切正常但当我在集群中运行它时它失败了我使用以下命令执行了提交 Spark submit masteryarn deplo

apachespark PySpark hadoopyarn

Yarn 迷你集群容器日志目录不包含 syslog 文件

我已经基于 CDH 5 1 0 的 hadoop 2 3 0 设置了带有 1 个节点管理器 4 个本地目录和 4 个日志目录等的 YARN MapReduce 迷你集群它看起来或多或少起作用我未能实现的是从容器进行系统日志记录我看到容

Java Hadoop MapReduce Log4j hadoopyarn

Spark Metrics：如何访问执行器和工作器数据？

注意我在 YARN 上使用 Spark 我一直在尝试公制 https spark apache org docs latest monitoring html metrics在 Spark 中实现我启用了 ConsoleSink 和 C

apachespark monitoring hadoopyarn Metrics

Spark2 + YARN - 准备 AM 容器时出现 nullpointerException

我正在尝试跑步 pyspark master yarn 火花版本 2 0 0 Hadoop版本 2 7 2 Hadoop 纱线 Web 界面是成功启动发生的情况是这样的 16 08 15 10 00 12 DEBUG Client Us

apachespark PySpark hadoopyarn Hadoop2

Spark Streaming 应用程序失败并出现 KafkaException：字符串超出最大大小或出现 IllegalArgumentException

TL DR 我非常简单的 Spark Streaming 应用程序在驱动程序中失败并显示 KafkaException 字符串超出最大大小我在执行程序中看到了相同的异常但我还在执行程序日志的某处发现了 IllegalArgumentE

ApacheKafka SparkStreaming hadoopyarn clouderacdh apachespark16

有没有办法改变 Spark 中 RDD 的复制因子？

据我了解集群中的RDD中存在多份数据这样当某个节点发生故障时程序可以恢复然而在失败的可能性可以忽略不计的情况下在 RDD 中拥有多个数据副本在内存方面将是昂贵的那么我的问题是 Spark中是否有一个参数可以用来减少RDD的复

Java scala Hadoop apachespark hadoopyarn

知道hadoop中数据节点的磁盘空间吗？

有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间我尝试了命令 dfs du h 但似乎我没有权限对许多目录执行它因此无法获取实际的磁盘空间 From UI http namenode 50070 dfsheal

Hadoop HDFS hadoopyarn Hadoop2 webhdfs

Spark on 纱线概念理解

我试图了解 Spark 如何在 YARN 集群客户端上运行我心里有以下问题是否需要在yarn集群的所有节点上都安装spark 我认为应该是因为集群中的工作节点执行任务并且应该能够解码由驱动程序发送到集群的 Spark 应用程序中的代码

Hadoop apachespark HDFS hadoopyarn

将自定义退出代码从纱线集群模式 Spark 传递到 CLI

我通过spark submit启动了纱线集群模式spark作业为了指示部分失败等我想将退出代码从驱动程序传递到调用spark submit的脚本我尝试了 System exit 和在驱动程序中抛出 SparkUserAppExcept

apachespark hadoopyarn