Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException:路径不存在”[重复]
这个问题在这里已经有答案了 我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群 将文件放入 HDFS 不是一个选项 这是我所做的 def main args Array String if args null
apachespark
hadoopyarn
异常:java.lang.Exception:使用 master 'yarn' 运行时,必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中
我是新的阿帕奇火花 我已经在spark独立模式下测试了一些应用程序 但我想运行应用程序yarn模式 我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Hadoop
apachespark
PySpark
hadoopyarn
在Spark的客户端模式下,驱动程序需要网络访问远程执行程序?
使用火花时在客户端模式 例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信 如果是 是否意味着机器 运行驱动程序 需要具有对工作节点的网络访问权限 那么master节点向集群请求资源 并将wor
apachespark
hadoopyarn
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序
我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
Hadoop
SparkStreaming
hadoopyarn
ResourceManager
纱线堆的使用量随着时间的推移而增长
我们在 AWS EMR 上运行 Spark Streaming 作业 该作业将稳定运行 10 到 14 小时 然后崩溃 并且 stderr stdout 或 Cloudwatch 日志中没有明显错误 在此崩溃之后 任何重新启动作业的尝试都将
apachespark
heapmemory
SparkStreaming
hadoopyarn
amazonemr
Spark任务仅在一个执行器上运行
大家好 首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in
python
apachespark
elasticsearch
PySpark
hadoopyarn
Hadoop YARN 作业陷入映射 0% 并减少 0%
我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置 所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业 并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
Hadoop
MapReduce
Cloudera
hadoopyarn
如何处理 YARN MapReduce 作业的容器故障?
YARN 中如何处理软件 硬件故障 具体来说 如果容器发生故障 崩溃 会发生什么 容器和任务失败由节点管理器处理 当容器失败或死亡时 节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行 如果应用程序主机发
Hadoop
MapReduce
hadoopyarn
Hadoop2
FAILED 错误:java.io.IOException:所有收集器的初始化失败
我在运行 MapReduce WordCount 作业时遇到一些错误 错误 java io IOException 所有收集器的初始化 失败的 最后一个收集器中的错误是 class wordcount wordmapper at org a
Hadoop
MapReduce
hadoopyarn
如何使用spark-submit为Spark作业选择队列?
有没有办法提供参数或设置来选择我希望运行 Spark submit 作业的队列 通过使用 queue 因此 火花提交作业的一个示例是 Spark submit master YARN conf Spark executor memory 4
apachespark
hadoopyarn
如何使用 JMX 远程连接到 Dataproc 上的 Spark 工作线程
我可以通过添加以下内容来很好地连接到驱动程序 spark driver extraJavaOptions Dcom sun management jmxremote Dcom sun management jmxremote port 91
apachespark
hadoopyarn
googleclouddataproc
如何从容器内部获取 YARN ContainerId?
我正在 YARN 上运行 Spark 作业 并且希望获取 YARN 容器 ID 作为在一组 Spark 作业中生成唯一 ID 的要求的一部分 我可以看到容器 getId https hadoop apache org docs r2 6 0
Hadoop
apachespark
hadoopyarn
Spark 作业在 YARN 模式下失败
我有一个用 Scala 编写的 Spark 程序 它从 HDFS 读取 CSV 文件 计算新列并将其保存为 parquet 文件 我正在 YARN 集群中运行该程序 但每次我尝试启动它时 执行程序都会在某个时候失败并出现此错误 您能帮我找出
scala
Hadoop
apachespark
HDFS
hadoopyarn
Apache Hadoop Yarn - 核心利用率不足
无论我如何修改设置yarn site xml即使用以下所有选项 yarn scheduler minimum allocation vcores yarn nodemanager resource memory mb yarn nodema
Hadoop
apachespark
hadoopyarn
ResourceManager
如何使用 CDH4 和 Yarn 查看 Hadoop 作业历史记录和日志?
我使用 Yarn 下载了 Hadoop 的 CDH4 tar 作业运行良好 但我不知道在哪里查看作业日志 在 MRv1 中 我只需访问 JobTracker Web 应用程序 它就有工作历史记录 也可以从这里访问各个作业的日志 或者转到lo
configuration
Hadoop
Cloudera
hadoopyarn
如何防止 EMR Spark 步骤重试?
我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤 我的问题是 如果 Spark 应用程序失败 则 YARN 会尝试再次运行该应用程序 在相同的 EMR 步骤下 我怎样才能防止这
amazonwebservices
apachespark
hadoopyarn
EMR
仅当尝试打开假定的缓存文件时,Hadoop 2 IOException
我最近更新到 hadoop 2 2 使用本教程here http codesfusion blogspot com 2013 10 setup hadoop 2x 220 on ubuntu html m 1 我的主要作业类如下所示 并抛出
Java
Hadoop
Bigdata
hadoopyarn
Spark:连接拒绝纱线上的 webapp 代理
我在 docker 容器上使用 Spark 和 hadoop 我有 3 个容器主容器和 2 个从容器 一切工作正常 但我在运行任务时遇到 Spark 代理 Web 应用程序问题 我可以连接到yarn webapp 但nhttp 172 20
Hadoop
apachespark
Docker
hadoopyarn
networkinterface
YARN 作业历史记录不可访问
我正在使用来自源代码的最新 hadoop 版本 3 0 0 我已经启动并运行了时间轴服务 并配置了 hadoop 以将其用于作业历史记录 但是 当我单击资源管理器 UI 中的历史记录时 出现以下错误 HTTP ERROR 404 Probl
Hadoop
hadoopyarn
找不到 Pyspark 模块
我正在尝试在 Yarn 中执行一个简单的 Pyspark 作业 这是代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster yarn client set
python
Hadoop
apachespark
hadoopyarn
PySpark
1
2
3
4
5
»