为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？

2024-04-06

我一生都无法弄清楚我的 PySpark 安装出了什么问题。我已经安装了所有依赖项，包括 Hadoop，但 PySpark 找不到它——我的诊断是否正确？

请参阅下面的完整错误消息，但它最终在 PySpark SQL 上失败

pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder':"

nickeleres@Nicks-MBP:~$ pyspark
Python 2.7.10 (default, Feb  7 2017, 00:08:15) 
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.hadoop.security.authentication.util.KerberosUtil (file:/opt/spark-2.2.0/jars/hadoop-auth-2.7.3.jar) to method sun.security.krb5.Config.getInstance()
WARNING: Please consider reporting this to the maintainers of org.apache.hadoop.security.authentication.util.KerberosUtil
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
17/10/24 21:21:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.
17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4042. Attempting port 4043.
Traceback (most recent call last):
  File "/opt/spark/python/pyspark/shell.py", line 45, in <module>
    spark = SparkSession.builder\
  File "/opt/spark/python/pyspark/sql/session.py", line 179, in getOrCreate
    session._jsparkSession.sessionState().conf().setConfString(key, value)
  File "/opt/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
  File "/opt/spark/python/pyspark/sql/utils.py", line 79, in deco
    raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder':"
>>>

tl;dr关闭所有其他 Spark 进程并重新开始。

以下 WARN 消息表示有另一个进程（或多个进程）持有该端口。

我确信这些进程是 Spark 进程，例如pyspark 会话或 Spark 应用程序。

17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.
17/10/24 21:21:59 WARN Utils: Service 'SparkUI' could not bind on port 4042. Attempting port 4043.

这就是为什么 Spark/pyspark 发现端口 4044 可免费用于 Web UI 后尝试实例化HiveSessionStateBuilder并失败了。

pyspark 失败，因为您无法启动并运行多个使用同一本地 Hive 元存储的 Spark 应用程序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练

随机推荐

不了解类 UNET 架构中的数据流，并且 Conv2DTranspose 层的输出存在问题

我对修改后的 U Net 架构的输入维度有一两个问题为了节省您的时间并更好地理解重现我的结果我将发布代码和输出尺寸修改后的U Net架构是来自的MultiResUNet架构https github com nibtehaz Mult
MKMapView 崩溃

我无法确定崩溃的具体时间因为有时会发生但大多数时候不会当添加新注释并且图钉下降时或者当图钉位置发生更改拖动时它会崩溃我的ios版本是4 3 1 Crash Thread 0 Crashed 0 libobjc A dylib
asp.net在gridview中查找控件

如何使用查找控件访问Label4 感谢您的任何帮助您可以提供
如何在共享主机上托管 codeigniter 4 网站？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚创建了一个 codeigniter4 项目我想将其上传到 sharehosting 上但我的网站无法访问它给出了服务器错误出
如何在 C# Windows 应用程序中引用网站用户控件？

我在 Windows C 应用程序中有一个解决方案其中我也有一个网站在网站中我有 1 个用户控件现在我希望在同一解决方案的其他 C 项目中使用用户控件怎么做那是不可能的您必须为 Windows 应用程序重新创建它您可以重用的是
Angular 2：路由参数更改，重新加载同一页面？

我有一个带有参数的路由当转到页面 users 123 时其中 123 是调用 ngOnInit 的参数我获取我的参数并调用我的方法来获取用户但是当我在该页面上单击第二个链接 users 456 时将不再调用 ngOnInit 因
如何使用Struts2 Jquery插件实现过滤器搜索

我正在尝试为我的 Struts2 jquery 网格实现过滤器搜索如果我搜索任何字符串通过 jquery 过滤器文本框那么它会调用我的操作类但我无法在我的操作类中获取搜索字符串我尝试在我的 Action 类中打印此行但搜索字符串
使用 scikit-learn 运行 k-fold 后如何访问数据集？

我正在尝试应用 kfold 方法但我不知道如何访问生成的训练和测试集在浏览了几个博客和 scikitlearn 用户指南后人们唯一要做的就是打印训练和测试集这可能适用于小型数据框但对于较大的数据框则没有用谁能帮我我正在使用的数
getNodeValue() 返回 null，尽管响应 xml 持有者不返回 null

我正在使用 SOAP UI GetCityWeatherByZip 的演示 Web 服务该脚本从 csv 文件中读取不同的邮政编码将它们传递到请求 xml 中获取响应并将结果存储在 csv 文件中 ulresp 变量用于存储响应并且
subprocess.call 分别记录 stdout 和 stderr 的信息和错误

我有一个记录器像这样的东西 import logging logger logging getLogger myApp hdlr logging FileHandler myApp log logger addHandler hdlr l
Distribution Manifest.mf 中的单个点（“.”）是什么意思？

最近我对 Manifest mf 文件中的类路径有点困惑所以我想要的是将一些properties files从我的distribution jar中外包出来并将它们放在它旁边而不更改java source files 下面的例子此时
Javascript - 如何找到一个数字随时间的总增长？

感谢您的光临我正在创建一个小程序来显示总复利例如假设每个月一个人的月收入增加 5 他们一开始的收入为 1 000 美元但一年后他们每月的收入将达到 1 820 美元我已经做到了它会显示 1 年后的月收入 1 820 美元但我
在 C++ 中，我可以有一个通过引用传递参数的函数/方法和一个通过值传递参数的重载吗？ [复制]

这个问题在这里已经有答案了在 C 中这当然是可能的正如这个可编译示例所示 static void Teste int x static void Teste ref int x static void Teste int i 0 Tes
更改背景图像 - javascript

我想用 JavaScript 更改背景图像 JS
服务帐户需要哪些范围/角色才能提交容器构建器作业？

创建新的服务帐户来处理 Container Builder 作业时作业会失败并出现以下错误尽管服务帐户具有Cloud Container Builder Logs Viewer and Private Logs viewer ERROR
以编程方式在 Simulink 中编辑“MATLAB Function”模块的代码

我想创建一个简单的 Simulink 模型其中包含 MATLAB 函数 https www mathworks com help simulink slref matlabfunction html以编程方式阻止即使用 Matlab 代
QTcpClient 成功连接，但未连接到我的服务器。它在哪里连接？

我已经使用 Qt 的 Tcp Sockets API 成功构建了一个瘦客户端服务器我知道它效果很好因为我已经通过网络发送了大量数据并进行了验证然而我的项目经理想要一套单元测试我正在使用 Qt 的测试库来实现它们无论如何我试图
优化以查找复数作为输入

我想知道是否有 C C 库或 Matlab 代码技术来使用最小化求解器确定实数和复数这是一个代码片段显示了我想要做的事情例如假设我知道Utilde 但不是x and U变量我想使用优化 fminsearch 来确定x and U
表格单元格自动换行不适用于斜杠

我试图将文本包装在固定布局中但当文本包含斜杠时它不起作用可以在不插入 Javascript 纯 CSS 空格的情况下解决这个问题吗 jsfiddle http jsfiddle net HgBhk 1 http jsfiddle net
为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？

我一生都无法弄清楚我的 PySpark 安装出了什么问题我已经安装了所有依赖项包括 Hadoop 但 PySpark 找不到它我的诊断是否正确请参阅下面的完整错误消息但它最终在 PySpark SQL 上失败 pyspark sq

为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？

为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？ 的相关文章

随机推荐

热门标签

为什么 pyspark 失败并显示“实例化‘org.apache.spark.sql.hive.HiveSessionStateBuilder’时出错”？的相关文章