delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

2024-04-19

Dataproc 集群是使用映像创建的2.0.x带有 Delta io 包io.delta:delta-core_2.12:0.7.0

Spark版本是3.1.1

Spark shell 启动于：

pyspark --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \
--conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog

执行命令来创建增量表并插入到增量 SQL 中：

spark.sql("""CREATE TABLE IF NOT EXISTS customer(
             c_id Long, c_name String, c_city String
             )
           USING DELTA LOCATION 'gs://edw-bi-dev-dataexports/delta-table-poc/dt_poc/customer'
         """)

spark.sql("INSERT INTO customer VALUES(1, 'Shawn', 'Tx')")

Error:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/spark/python/pyspark/sql/session.py", line 719, in sql
    return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
  File "/usr/lib/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 1305, in __call__
  File "/usr/lib/spark/python/pyspark/sql/utils.py", line 111, in deco
    return f(*a, **kw)
  File "/usr/lib/spark/python/lib/py4j-0.10.9-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o58.sql.
: java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias.<init>(Lorg/apache/spark/sql/catalyst/expressions/Expression;Ljava/lang/String;Lorg/apache/spark/sql/catalyst/expressions/ExprId;Lscala/collection/Seq;Lscala/Option;)V
        at org.apache.spark.sql.delta.DeltaAnalysis.$anonfun$normalizeQueryColumns$1(DeltaAnalysis.scala:162)
        at scala.collection.immutable.List.map(List.scala:293)
        at org.apache.spark.sql.delta.DeltaAnalysis.org$apache$spark$sql$delta$DeltaAnalysis$$normalizeQueryColumns(DeltaAnalysis.scala:151)
        at org.apache.spark.sql.delta.DeltaAnalysis$$anonfun$apply$1.applyOrElse(DeltaAnalysis.scala:49)
        at org.apache.spark.sql.delta.DeltaAnalysis$$anonfun$apply$1.applyOrElse(DeltaAnalysis.scala:45)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.$anonfun$resolveOperatorsDown$2(AnalysisHelper.scala:108)
        at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:73)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.$anonfun$resolveOperatorsDown$1(AnalysisHelper.scala:108)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.allowInvokingTransformsInAnalyzer(AnalysisHelper.scala:221)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.resolveOperatorsDown(AnalysisHelper.scala:106)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper.resolveOperatorsDown$(AnalysisHelper.scala:104)
        at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperatorsDown(LogicalPlan.scala:29)
        at org.apache.spark.sql.delta.DeltaAnalysis.apply(DeltaAnalysis.scala:45)
        at org.apache.spark.sql.delta.DeltaAnalysis.apply(DeltaAnalysis.scala:40)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$2(RuleExecutor.scala:216)
        at scala.collection.LinearSeqOptimized.foldLeft(LinearSeqOptimized.scala:126)
        at scala.collection.LinearSeqOptimized.foldLeft$(LinearSeqOptimized.scala:122)
        at scala.collection.immutable.List.foldLeft(List.scala:91)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$1(RuleExecutor.scala:213)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$execute$1$adapted(RuleExecutor.scala:205)
        at scala.collection.immutable.List.foreach(List.scala:431)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:205)
        at org.apache.spark.sql.catalyst.analysis.Analyzer.org$apache$spark$sql$catalyst$analysis$Analyzer$$executeSameContext(Analyzer.scala:195)
        at org.apache.spark.sql.catalyst.analysis.Analyzer.execute(Analyzer.scala:189)
        at org.apache.spark.sql.catalyst.analysis.Analyzer.execute(Analyzer.scala:154)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.$anonfun$executeAndTrack$1(RuleExecutor.scala:183)
        at org.apache.spark.sql.catalyst.QueryPlanningTracker$.withTracker(QueryPlanningTracker.scala:88)
        at org.apache.spark.sql.catalyst.rules.RuleExecutor.executeAndTrack(RuleExecutor.scala:183)
        at org.apache.spark.sql.catalyst.analysis.Analyzer.$anonfun$executeAndCheck$1(Analyzer.scala:173)
        at org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.markInAnalyzer(AnalysisHelper.scala:228)
        at org.apache.spark.sql.catalyst.analysis.Analyzer.executeAndCheck(Analyzer.scala:172)
        at org.apache.spark.sql.execution.QueryExecution.$anonfun$analyzed$1(QueryExecution.scala:73)
        at org.apache.spark.sql.catalyst.QueryPlanningTracker.measurePhase(QueryPlanningTracker.scala:111)
        at org.apache.spark.sql.execution.QueryExecution.$anonfun$executePhase$1(QueryExecution.scala:143)
        at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:772)
        at org.apache.spark.sql.execution.QueryExecution.executePhase(QueryExecution.scala:143)
        at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:73)
        at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:71)
        at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:63)
        at org.apache.spark.sql.Dataset$.$anonfun$ofRows$2(Dataset.scala:98)
        at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:772)
        at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:96)
        at org.apache.spark.sql.SparkSession.$anonfun$sql$1(SparkSession.scala:615)
        at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:772)
        at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:610)
        at sun.reflect.GeneratedMethodAccessor118.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
        at py4j.Gateway.invoke(Gateway.java:282)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:238)

我无法找出问题的根本原因。

这是由这个变化 https://github.com/apache/spark/commit/a082f4600b1cb814442beed1b578bc3430a257a7#diff-cf96171d13fd77e670764766ae22afafbc4a396316bd758a89b60a6fe70d5b0dL150这破坏了二进制兼容性Alias案例类。修复此问题的方法是将 Spark 版本降级到 3.0.x，或者等到支持 3.1.x 的新 Delta 版本发布。

附： Delta 中还有其他地方因 Spark 3.1.1 中的更改而受到破坏

更新（2021 年 5 月）版本 1.0.0 现在与 Spark 3.1 完全兼容

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Databricks

googleclouddataproc

deltalake

delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias 的相关文章

在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa

随机推荐

使用 matplotlib 在 wxpython 面板中组合按键和鼠标按钮事件

In a wxPython我想使用的面板matplotlib s Lasso http matplotlib org api widgets api html highlight lasso matplotlib widgets Lasso
使用 xs:extension 忽略元素顺序

我该如何设计我的xsd忽略元素的顺序
在 python 中，对于标量， math.acos() 比 numpy.arccos() 更快吗？

我正在Python中进行一些科学计算其中包含大量几何计算并且我遇到了使用之间的显着差异numpy与标准相比math图书馆 gt gt gt x timeit Timer v np arccos a import numpy as np
如何在 Python 中搜索文本文件中的特定单词

我想在文本文件中查找与存储在名为 items 的现有列表中的单词相匹配的单词该列表是在上一个函数中创建的我也希望能够在下一个函数中使用该列表但我不确定如何为此我尝试使用类来实现这一点但我无法做到正确我无法弄清楚其余代码的问题是什
Django：在发布到模型之前我应该将感知日期时间实例转换为 UTC 吗？

I have aware日期时间实例其中tzinfo America Los Angeles 我想保存到模型中我应该在保存之前将其转换为 UTC 吗或者我可以按原样保存它因为它知道自己的时区我需要稍后将其转换为用户的时区吗acti
阻止文本环绕在锚点内的图标下方

我正在尝试创建一个由图标表示的链接我正在使用字体很棒 questions tagged font awesome用于图标和一些文本如果文本换行到下一行我希望它与文本对齐而不是出现在图标下方我尝试过在此找到的解决方案answer
打破parallel.foreach？

我怎样才能摆脱困境并行 for http msdn microsoft com en us library system threading tasks parallel for aspx loop 我有一个非常复杂的声明如下所示 Par
如何使用Git在不同平台上拥有不同的工作目录结构？

在 Windows 上我们有root folder1 root folder2 root folder3 在Linux上我们有root folder1 folder2 root folder1 folder3 我强烈希望不要使用子模块或子树
复选框的自定义图片？

我想将复选框显示为切换按钮但我无法使用 CCS 将自定义图片应用到它仍然绘制复选框如何完成这个任务呢 My CSS input type checkbox settingsbutton border style none backgr
Eloquent ORM(laravel 5) 是否负责 SQL 注入？

我在网上找不到它但是 Eloquent ORM 是否像 PDO 准备好的语句一样处理 SQL 注入没有任何框架能够处理 SQL 注入 You处理 SQL 注入框架可以提供方便地执行此操作的方法但您仍然必须一致地使用这些方法例如
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
从 VideoView 录制视频

目前在做直播项目成功实现视频直播现在我的下一个任务是录制 VideoView 中正在播放的视频我进行了搜索能够找到捕获视频但使用表面相机但在 VideoView 中我没有任何表面任何帮助表示赞赏你可以看到this http
支持多屏幕的应用程序骨架

正如我们所知 Android 随各种设备一起提供这些设备具有不同的功能功能分辨率和屏幕尺寸因此在开发支持的应用程序时多个小和大屏幕存在尺寸和布局障碍这导致了不同的组合屏幕尺寸分辨率和 DPI这给 Android 设备的设计
gem install pg 错误：无法理解 Yosemite w/ Ruby 2.1.5 上的 kern.osversion `14.0.0'

我使用 RVM 安装 Ruby 2 1 5 并再次运行捆绑包现在 pg gem 无法安装我收到此错误 gem install pg v 0 17 1 with pg config Applications Postgres app Co
c# 如何在 select 语句中指定 not ？

我在数据集上使用 select 方法来检索符合我的条件的结果 foreach DataRow dr in dsPone2 Tables tt pone Select strWhereCondition dsPone Tables tt po
Tensorflow 中的平衡准确度分数

我正在为高度不平衡的分类问题实现 CNN 并且我想在张量流中实现自定义指标以使用选择最佳模型回调具体来说我想实现平衡的准确度分数这是每个类别的召回率的平均值请参阅 sklearn 实现here https scikit lear
如何将一个word文档的内容复制到另一个word文档中？

我有一个包含一些文本和图像的Word文档我想使用C 将word文档的内容复制到另一个word文档中 Thanks 尝试下面的代码这可能对你有帮助 using System using System Collections Generic
Android 与 gms play 服务的依赖问题

我收到一个错误因为我正在尝试使用来自 Google 的应用程序索引库同时还导入一个库该库使用旧版本的 android gms 库作为不同的组件来自 Google Play 服务的转换库错误指出所有 com google andr
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql

delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias 的相关文章

随机推荐

热门标签