Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 作业在 YARN 模式下失败
我有一个用 Scala 编写的 Spark 程序 它从 HDFS 读取 CSV 文件 计算新列并将其保存为 parquet 文件 我正在 YARN 集群中运行该程序 但每次我尝试启动它时 执行程序都会在某个时候失败并出现此错误 您能帮我找出
scala
Hadoop
apachespark
HDFS
hadoopyarn
Apache Hadoop Yarn - 核心利用率不足
无论我如何修改设置yarn site xml即使用以下所有选项 yarn scheduler minimum allocation vcores yarn nodemanager resource memory mb yarn nodema
Hadoop
apachespark
hadoopyarn
ResourceManager
如何使用 CDH4 和 Yarn 查看 Hadoop 作业历史记录和日志?
我使用 Yarn 下载了 Hadoop 的 CDH4 tar 作业运行良好 但我不知道在哪里查看作业日志 在 MRv1 中 我只需访问 JobTracker Web 应用程序 它就有工作历史记录 也可以从这里访问各个作业的日志 或者转到lo
configuration
Hadoop
Cloudera
hadoopyarn
如何防止 EMR Spark 步骤重试?
我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤 我的问题是 如果 Spark 应用程序失败 则 YARN 会尝试再次运行该应用程序 在相同的 EMR 步骤下 我怎样才能防止这
amazonwebservices
apachespark
hadoopyarn
EMR
仅当尝试打开假定的缓存文件时,Hadoop 2 IOException
我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示 并抛出
Java
Hadoop
Bigdata
hadoopyarn
Spark:连接拒绝纱线上的 webapp 代理
我在 docker 容器上使用 Spark 和 hadoop 我有 3 个容器主容器和 2 个从容器 一切工作正常 但我在运行任务时遇到 Spark 代理 Web 应用程序问题 我可以连接到yarn webapp 但nhttp 172 20
Hadoop
apachespark
Docker
hadoopyarn
networkinterface
YARN 作业历史记录不可访问
我正在使用来自源代码的最新 hadoop 版本 3 0 0 我已经启动并运行了时间轴服务 并配置了 hadoop 以将其用于作业历史记录 但是 当我单击资源管理器 UI 中的历史记录时 出现以下错误 HTTP ERROR 404 Probl
Hadoop
hadoopyarn
找不到 Pyspark 模块
我正在尝试在 Yarn 中执行一个简单的 Pyspark 作业 这是代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster yarn client set
python
Hadoop
apachespark
hadoopyarn
PySpark
Spark失败:引起:org.apache.spark.shuffle.FetchFailedException:框架太大:5454002341
我正在为确定父子项的表生成层次结构 以下是使用的配置 即使在收到有关太大框架的错误后也是如此 火花特性 conf spark yarn executor memoryOverhead 1024mb conf yarn nodemanager
apachespark
apachesparksql
hadoopyarn
从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧
我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题 我首先在本地计算机上测试了我的代码 单节点 本地文件 一切都按预期工作 from pyspark sql import SparkSession sp
Hadoop
apachespark
PySpark
HDFS
hadoopyarn
如何在 Yarn 上配置应用程序驱动程序自动重启
来自 Spark 编程指南 要自动从驱动程序故障中恢复 用于运行流应用程序的部署基础架构必须监视驱动程序进程 并在驱动程序失败时重新启动驱动程序 不同的集群管理器有不同的工具来实现这一点 火花独立 火花独立 Spark应用程序驱动程序可以提
apachespark
hadoopyarn
SparkStreaming
Spark在本地运行但在YARN中运行时找不到文件
我一直在尝试提交一个简单的 python 脚本来使用 YARN 在集群中运行它 当我在本地执行作业时 没有问题 一切正常 但当我在集群中运行它时 它失败了 我使用以下命令执行了提交 Spark submit masteryarn deplo
apachespark
PySpark
hadoopyarn
Yarn 迷你集群容器日志目录不包含 syslog 文件
我已经基于 CDH 5 1 0 的 hadoop 2 3 0 设置了带有 1 个节点管理器 4 个本地目录和 4 个日志目录等的 YARN MapReduce 迷你集群 它看起来或多或少起作用 我未能实现的是从容器进行系统日志记录 我看到容
Java
Hadoop
MapReduce
Log4j
hadoopyarn
Spark Metrics:如何访问执行器和工作器数据?
注意 我在 YARN 上使用 Spark 我一直在尝试公制 https spark apache org docs latest monitoring html metrics在 Spark 中实现 我启用了 ConsoleSink 和 C
apachespark
monitoring
hadoopyarn
Metrics
Spark2 + YARN - 准备 AM 容器时出现 nullpointerException
我正在尝试跑步 pyspark master yarn 火花版本 2 0 0 Hadoop版本 2 7 2 Hadoop 纱线 Web 界面是 成功启动 发生的情况是这样的 16 08 15 10 00 12 DEBUG Client Us
apachespark
PySpark
hadoopyarn
Hadoop2
Spark Streaming 应用程序失败并出现 KafkaException:字符串超出最大大小或出现 IllegalArgumentException
TL DR 我非常简单的 Spark Streaming 应用程序在驱动程序中失败 并显示 KafkaException 字符串超出最大大小 我在执行程序中看到了相同的异常 但我还在执行程序日志的某处发现了 IllegalArgumentE
ApacheKafka
SparkStreaming
hadoopyarn
clouderacdh
apachespark16
有没有办法改变 Spark 中 RDD 的复制因子?
据我了解 集群中的RDD中存在多份数据 这样当某个节点发生故障时 程序可以恢复 然而 在失败的可能性可以忽略不计的情况下 在 RDD 中拥有多个数据副本在内存方面将是昂贵的 那么 我的问题是 Spark中是否有一个参数可以用来减少RDD的复
Java
scala
Hadoop
apachespark
hadoopyarn
知道hadoop中数据节点的磁盘空间吗?
有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间 我尝试了命令 dfs du h 但似乎我没有权限对许多目录执行它 因此无法获取实际的磁盘空间 From UI http namenode 50070 dfsheal
Hadoop
HDFS
hadoopyarn
Hadoop2
webhdfs
Spark on 纱线概念理解
我试图了解 Spark 如何在 YARN 集群 客户端上运行 我心里有以下问题 是否需要在yarn集群的所有节点上都安装spark 我认为应该是因为集群中的工作节点执行任务并且应该能够解码由驱动程序发送到集群的 Spark 应用程序中的代码
Hadoop
apachespark
HDFS
hadoopyarn
将自定义退出代码从纱线集群模式 Spark 传递到 CLI
我通过spark submit启动了纱线集群模式spark作业 为了指示部分失败等 我想将退出代码从驱动程序传递到调用spark submit的脚本 我尝试了 System exit 和在驱动程序中抛出 SparkUserAppExcept
apachespark
hadoopyarn
«
1
2
3
4
5
6
»