Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端

2024-03-23

我们在使用 Spark 引擎执行 Hive 查询时收到错误。

执行spark任务失败，出现异常 'org.apache.hadoop.hive.ql.metadata.HiveException（创建失败 Spark 客户端。）' 失败：执行错误，返回代码 1 org.apache.hadoop.hive.ql.exec.spark.SparkTask

以下属性设置为使用 Spark 作为执行引擎而不是 MapReduce：

set hive.execution.engine=spark;
set spark.executor.memory=2g;

我也尝试更改以下属性。

 set yarn.scheduler.maximum-allocation-mb=2048;
    set yarn.nodemanager.resource.memory-mb=2048;
    set spark.executor.cores=4;
    set spark.executor.memory=4g;
    set spark.yarn.executor.memoryOverhead=750;
    set hive.spark.client.server.connect.timeout=900000ms;

我还需要设置一些其他属性吗？有人可以建议吗？

看起来 e YARN 容器内存小于 Spark 执行器的要求。请将 YARN 容器内存和最大值设置为大于 Spark 执行器内存 + 开销。

纱线.scheduler.最大分配-mb
纱线.nodemanager.resource.内存-mb

纱线.nodemanager.resource.内存-mb：

可以为容器分配的物理内存量（以 MB 为单位）。这意味着 YARN 可以在该节点上使用的内存量，因此该属性应该低于该机器的总内存。

<name>yarn.nodemanager.resource.memory-mb</name>
<value>40960</value> <!-- 40 GB -->

下一步是提供有关如何将可用总资源分解到容器中的 YARN 指南。您可以通过指定为容器分配的最小 RAM 单位来实现此目的。

在yarn-site.xml中

<name>yarn.scheduler.minimum-allocation-mb</name> <!-- RAM-per-container ->
 <value>2048</value>

纱线.scheduler.最大分配-mb：

它定义了容器可用的最大内存分配（以 MB 为单位）

这意味着 RM 只能以“yarn.scheduler.minimum-allocation-mb”的增量向容器分配内存，并且不能超过“yarn.scheduler.maximum-allocation-mb”，并且它不应超过节点的总分配内存。

在yarn-site.xml中

<name>yarn.scheduler.maximum-allocation-mb</name> <!-Max RAM-per-container->
 <value>8192</value>

另请转到 Spark 历史记录服务器：转到 Spark on YARN 服务实例 > 历史服务器 > 历史服务 WebUI > 单击相关作业 > 单击在相关的失败作业上 > 单击该作业的失败阶段并查看对于“详细信息”部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端的相关文章

在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
我们可以预测 Hive SELECT * 查询结果的顺序吗？

是否有可能a的结果的顺序SELECT query no ORDER BY 如果使用相同的 DBMS 作为 Metastore 那么总是相同的吗所以只要使用MySQL作为Metastore 结果的顺序就为aSELECT 查询将始终相同如
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在

随机推荐

在 Swift 中链接多个异步函数

我正在尝试编写一系列函数在要求用户确认某些内容之前验证用户的信息想象一个购物应用程序我首先必须检查用户是否添加了卡然后我必须检查他们是否有足够的余额然后我可以要求他们确认付款我可以编写异步方法来检查卡例如 func check
使用 Javascript 生成高质量 PDF (jspdf+html2canvas)

我一直在尝试通过单击页面上的按钮从 HTML 页面转换并生成 PDF 该按钮会使用两个流行的插件自动生成并强制下载页面的 PDF JSPDF HTML2Canvas 到目前为止一切正常但生成的 PDF 总是模糊且质量不高导入 js 文
这些 switch 语句有哪些替代方案？

刚刚制作了这个极其简单的 GPA 计算器想知道如何使用循环来避免大量的 switch 语句我对 Java 很陌生只是寻求一些建议非常感谢任何其他改进程序的方法预先感谢各位 package helloPackage import j
出于好奇，学习Android开发

最近我一直在考虑开发一些基本的android应用程序这只是出于个人兴趣请指导我从哪里开始我需要什么工具以及指向某些 pdf 等的任何指示我的背景 1 C语言嵌入式软件开发人员 2 有一些从事 Flex 工作的机会因此熟悉eclip
RXJS 处理两个不同的事件，其中第一个事件必须取消第二个事件

rxjs 对我来说非常具有挑战性我发现自己一直在尝试解决这个问题我在堆栈上找到的最接近的解决方案是使用合并运算符这里是link https stackoverflow com questions 45495188 rxjs frome
在后台运行时查看随机 ngrok URL

当我启动 ngrok 客户端时 ngrok tcp 22它在前台运行我可以看到随机生成的转发URL 例如tcp 0 tcp ngrok io 12345 gt localhost 22 如果我在后台运行 ngrok tcp 我找不到任何方
如何从 PHP 调用 dup2() 系统调用？

有一个eio dup2 http php net manual en function eio dup2 php函数来自Eio PECL 扩展 http php net manual en intro eio php但我对所有异步和事件循环
WinForms 表单冻结

在表单 F1 上我有一个按钮如果我创建另一个表单我们称之为F2 并显示它没有问题但我想做这样的事情我的应用程序中的某些线程正在运行连接并侦听来自服务器的消息当消息到达时我的主窗体被注册以获取运行函数的事件从该函数中我尝试创建
如何列出命名空间的功能？

我想知道如何列出 Clojure 命名空间的所有函数我已经做了一些研究但还没有做到这一点我已经了解了如何使用 show 方法列出 Java 类的方法 show java awt Graphics 为了列出 Clojure 命名空间的功
Python：concurrent.futures 如何使其可取消？

Python concurrent futures 和 ProcessPoolExecutor 提供了一个简洁的接口来调度和监视任务期货甚至provide https docs python org 3 library concurren
Angular 4 验证器可同时检查 2 个控件

我有一个带有 2 个控件 port start 和 port end 的反应式表单它们具有以下要求两者都必须有一个值它们的值必须介于 0 到 65535 之间 port start 值必须小于 port end 值这是我到目前为止所
在 SimpleXML 中美化/格式化输出

我有一个 simplexml 脚本用于发布从表单输入的数据 xml simplexml load file links xml sxe new SimpleXMLElement xml gt asXML person sxe gt add
无法使用SED快速编辑文件

该文件最初是 cat so app yaml application SO 我运行以下命令我得到一个空文件 sed s SO so so app yaml gt so app yaml cat so app yaml 如何使用 SED 编
Silverlight Windows Phone 7：从 URL 加载图像

我得到下面的代码它试图将网络上的图像加载到图像控件中当我运行它时我在给定的行上收到错误不允许网络访问 private void button1 Click object sender RoutedEventArgs e WebCli
使用CRTP时如何避免错误？

Using CRTP http en wikipedia org wiki Curiously recurring template pattern有时我会写这样的代码 this was written first struct Foo B
水平步骤中的等待栏，matlab

我正在尝试修改这段代码 h waitbar 0 Please wait for i 1 10 computation here waitbar i 10 end close h 我如何将 waitbar 分为 10 个步骤我的意思是它应该
如何从 JavaScript 中的字符串中去除 HTML 标签？ [复制]

这个问题在这里已经有答案了如何在 JavaScript 中从字符串中去除 HTML cleanText strInputCode replace lt gt gt g 蒸馏自这个网站 web archive https web archi
在一个查询中搜索多个表 (MySQL/PHP#)

我有大约 15 个表每个表包含大约 10 000 行和大约 30 列我希望我的网站的用户能够搜索零件编号或产品说明并显示结果不管它在哪张桌子上每个产品页面与每个对应表的名称相同因此如果找到产品它只会显示正确页面的链接文件名
如果没有 google-services.json，Google 服务插件将无法运行 [重复]

这个问题在这里已经有答案了文件 google services json 丢失 Google 服务插件无法运行自从我删除了我的内容后我收到此错误代码google services json我的项目中的文件现在解决这个问题的明显方法是
Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端

我们在使用 Spark 引擎执行 Hive 查询时收到错误执行spark任务失败出现异常 org apache hadoop hive ql metadata HiveException 创建失败 Spark 客户端失败执行错误返

Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端

Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端 的相关文章

随机推荐

热门标签

Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端的相关文章