hadoopyarn

如何增加YARN中nodemanager中的容器数量

我的 YARN 集群中的一个节点有 64GB 内存和 24 个核心我在yarn site xml中设置了以下属性

Hadoop hadoopyarn

带 --jars 的 Spark-Submit YARN-CLASS 不起作用？

我正在尝试通过以下命令向 CDH 纱线集群提交 Spark 作业我尝试了几种组合但都不起作用我现在所有的 poi jar 都位于我的本地 root 以及 HDFS user root lib 中因此我尝试了以下操作 spark su

Java Hadoop apachespark hadoopyarn clouderacdh

YARN：容器和 JVM

有人可以帮助我理解 JVM 和 YARN 中容器之间的关系吗 JVM 是如何创建的每个任务都有一个 JVM 吗同一个JVM中可以同时运行多个任务吗我知道 ubertasking 其中许多任务 maps reduce 可以在同一个 JV

Java Hadoop JVM hadoopyarn hadoop272

Spark配置优先级

在代码中指定 Spark 应用程序配置之间是否有任何区别或优先级 SparkConf setMaster yarn 并在命令行中指定它们 spark submit master yarn 是的用户代码中使用 set 函数进行的配置具有最高

apachespark hadoopyarn

YARN 中应用程序管理器和应用程序主控之间的区别？

我了解 MRv1 的工作原理现在我试图了解 MRv2 YARN 中的应用程序管理器和应用程序主控之间有什么区别应用程序主控和应用程序管理器这两个术语通常可以互换使用实际上 Application Master 是请求启动和监视应用程

Hadoop MapReduce hadoopyarn

在 YARN 上运行 Spark 应用程序，无需 Spark-submit

我知道 Spark 应用程序可以使用 YARN 在 YARN 上执行spark submit master yarn 问题是是否可以使用yarn在yarn上运行Spark应用程序yarn命令如果是这样 YARN REST API 可以用

apachespark hadoopyarn

在纱线集群上运行时引发 ClassNotFoundException

my code import org apache spark SparkConf SparkContext object Run extends App val conf new SparkConf setMaster yarn clus

scala apachespark hadoopyarn

Spark 客户端模式 - YARN 为驱动程序分配容器？

我在客户端模式下在 YARN 上运行 Spark 因此我希望 YARN 仅为执行器分配容器然而从我所看到的来看似乎还为驱动程序分配了一个容器并且我没有得到与预期一样多的执行程序我正在主节点上运行 Spark Submit 参数如下

apachespark hadoopyarn

Yarn 中的“应用优先”

我使用的是 Hadoop 2 9 0 是否可以在 YARN 中提交具有不同优先级的作业根据一些 JIRA 票证应用程序优先级似乎现已实施我尝试使用YarnClient 并设置优先级ApplicationSubmissionContex

Hadoop hadoopyarn

上传资源文件时，createBlockOutputStream 中 Spark HDFS 异常

我正在尝试在集群中运行我的 JARyarn cluster但一段时间后我遇到了例外最后INFO在失败之前是Uploading resource 我已经检查了所有安全组确实如此hsdf ls成功但仍然收到错误 bin spark subm

Hadoop apachespark hadoopyarn

为什么当我启动它时，我的 pyspark 在纱线中挂起为“已接受”？

我刚刚旋转了一个新的AWS实例在Linux 而且我安装了pyspark在上面它有spark 1 6 我在跑pyspark with yarn 当我执行命令时pyspark在终端中它最初启动但随后我收到消息 dd mm YY HH M

apachespark amazonec2 PySpark hadoopyarn

为什么 YARN 上的 Spark 应用程序由于连接被拒绝而失败并出现 FetchFailedException？

我在用spark version 1 6 3 and yarn version 2 7 1 2 3附带HDP 2 3 0 0 2557 因为我使用的HDP版本中的spark版本太旧所以我更喜欢远程使用另一个spark作为yarn模式这是

apachespark hadoopyarn apachespark16

在 Spark on Yarn 中使用类型安全配置

我有一个从配置文件读取数据的 Spark 作业该文件是类型安全的配置文件读取配置的代码如下所示 ConfigFactory load getConfig com mycompany 现在我不将 application conf 组装为我

scala apachespark hadoopyarn typesafeconfig

如何从本地 Hadoop 2.6 安装访问 S3/S3n？

我正在尝试在本地计算机上重现 Amazon EMR 集群为此我安装了目前 Hadoop 的最新稳定版本 2 6 0 http ftp cixug es apache hadoop common hadoop 2 6 0 现在我想访问 S

Hadoop amazonwebservices amazons3 hadoopyarn Hadoop2

如何将配置文件添加到Spark 1.2.0中所有Spark执行器的类路径中？

我正在使用类型安全配置 https github com typesafehub config https github com typesafehub config 使用配置文件参数化在纱线集群模式下运行的 Spark 作业 Typesa

apachespark classpath hadoopyarn typesafeconfig

Yarn MapReduce 作业问题 - Hadoop 2.3.0 中的 AM 容器启动错误

我已经设置了 Hadoop 2 3 0 的 2 节点集群它工作正常我可以成功运行 Distributedshell 2 2 0 jar 示例但是当我尝试运行任何 MapReduce 作业时我收到错误我已经设置了 MapRed xm

Java Hadoop MapReduce hadoopyarn

集群中节点不健康

集群上的节点处于不健康状态的原因有哪些根据我有限的理解当给定节点上的 HDFS 利用率超过阈值时通常会发生这种情况此阈值是使用 max disk utilization per disk percentage 属性定义的我有时观察

HDFS apachesparksql hadoopyarn EMR amazonemr

Spark 和 Yarn 的资源分配

我在纱线客户端模式下使用 Zeppelin 0 7 3 和 Spark 2 3 我的设置是 Spark spark driver memory 4096m spark driver memoryOverhead 3072m spark ex

apachespark hadoopyarn apachezeppelin

使用 Yarn 的集群模式下的 Spark Pi 示例：关联丢失[重复]

这个问题在这里已经有答案了我有三个虚拟机作为分布式 Spark 集群运行我正在使用 Spark 1 3 0 和底层 Hadoop 2 6 0 如果我运行 Spark Pi 示例 usr local spark130 bin spark

Hadoop apachespark hadoopyarn

为什么flink容器vcore大小始终为1

我在yarn上运行flink 更准确地说是在AWS EMRyarn集群中我阅读了flink文档和源代码默认情况下对于每个任务管理器容器当从yarn请求资源时 flink将请求每个任务管理器的插槽数量作为vcore的数量而且我也从源

hadoopyarn apacheflink