Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

2024-06-20

我正在将 Spark 2.4 项目升级到 Spark 3.x。我们遇到了一些现有 Spark-ml 代码的问题：

var stringIndexers = Array[StringIndexer]()
for (featureColumn <- FEATURE_COLS) {
    stringIndexers = stringIndexers :+ new StringIndexer().setInputCol(featureColumn).setOutputCol(featureColumn + "_index")
}
val pipeline = new Pipeline().setStages(stringIndexers)
val dfWithNumericalFeatures = pipeline.fit(decoratedDf).transform(decoratedDf)

具体来说，这一行：val dfWithNumericalFeatures = pipeline.fit(decoratedDf).transform(decoratedDf)现在 Spark 3 中会导致这个神秘的异常：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 238.0 failed 1 times, most recent failure: Lost task 0.0 in stage 238.0 (TID 5589) (executor driver): com.esotericsoftware.kryo.KryoException: Unable to find class: org.apache.spark.util.collection.OpenHashMap$mcJ$sp$$Lambda$13346/2134122295
[info] Serialization trace:
[info] org$apache$spark$util$collection$OpenHashMap$$grow (org.apache.spark.util.collection.OpenHashMap$mcJ$sp)
[info]  at com.esotericsoftware.kryo.util.DefaultClassResolver.readName(DefaultClassResolver.java:156)
[info]  at com.esotericsoftware.kryo.util.DefaultClassResolver.readClass(DefaultClassResolver.java:133)
[info]  at com.esotericsoftware.kryo.Kryo.readClass(Kryo.java:670)
[info]  at com.esotericsoftware.kryo.serializers.ObjectField.read(ObjectField.java:118)
[info]  at com.esotericsoftware.kryo.serializers.FieldSerializer.read(FieldSerializer.java:551)
[info]  at com.esotericsoftware.kryo.Kryo.readObject(Kryo.java:708)
[info]  at com.esotericsoftware.kryo.serializers.DefaultArraySerializers$ObjectArraySerializer.read(DefaultArraySerializers.java:396)
[info]  at com.esotericsoftware.kryo.serializers.DefaultArraySerializers$ObjectArraySerializer.read(DefaultArraySerializers.java:307)
[info]  at com.esotericsoftware.kryo.Kryo.readClassAndObject(Kryo.java:790)
[info]  at org.apache.spark.serializer.KryoSerializerInstance.deserialize(KryoSerializer.scala:397)
[info]  at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificSafeProjection.apply(Unknown Source)
[info]  at org.apache.spark.sql.execution.aggregate.ComplexTypedAggregateExpression.deserialize(TypedAggregateExpression.scala:271)
[info]  at org.apache.spark.sql.catalyst.expressions.aggregate.TypedImperativeAggregate.merge(interfaces.scala:568)
[info]  at org.apache.spark.sql.execution.aggregate.AggregationIterator$$anonfun$1.$anonfun$applyOrElse$3(AggregationIterator.scala:199)
[info]  at org.apache.spark.sql.execution.aggregate.AggregationIterator$$anonfun$1.$anonfun$applyOrElse$3$adapted(AggregationIterator.scala:199)
[info]  at org.apache.spark.sql.execution.aggregate.AggregationIterator.$anonfun$generateProcessRow$7(AggregationIterator.scala:213)
[info]  at org.apache.spark.sql.execution.aggregate.AggregationIterator.$anonfun$generateProcessRow$7$adapted(AggregationIterator.scala:207)
[info]  at org.apache.spark.sql.execution.aggregate.ObjectAggregationIterator.processInputs(ObjectAggregationIterator.scala:151)
[info]  at org.apache.spark.sql.execution.aggregate.ObjectAggregationIterator.<init>(ObjectAggregationIterator.scala:77)
[info]  at org.apache.spark.sql.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$2(ObjectHashAggregateExec.scala:107)
[info]  at org.apache.spark.sql.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$2$adapted(ObjectHashAggregateExec.scala:85)
[info]  at org.apache.spark.rdd.RDD.$anonfun$mapPartitionsWithIndexInternal$2(RDD.scala:885)
[info]  at org.apache.spark.rdd.RDD.$anonfun$mapPartitionsWithIndexInternal$2$adapted(RDD.scala:885)
[info]  at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
[info]  at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
[info]  at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
[info]  at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
[info]  at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
[info]  at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
[info]  at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
[info]  at org.apache.spark.scheduler.Task.run(Task.scala:131)
[info]  at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:497)
[info]  at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1439)
[info]  at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:500)
[info]  at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
[info]  at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
[info]  at java.lang.Thread.run(Thread.java:750)
[info] Caused by: java.lang.ClassNotFoundException: org.apache.spark.util.collection.OpenHashMap$mcJ$sp$$Lambda$13346/2134122295
[info]  at java.lang.Class.forName0(Native Method)
[info]  at java.lang.Class.forName(Class.java:348)
[info]  at com.esotericsoftware.kryo.util.DefaultClassResolver.readName(DefaultClassResolver.java:154)
[info]  ... 36 more

我四处搜索，发现的唯一相关问题是这个未回答的具有相同问题的问题：Spark Kryo 序列化问题 https://stackoverflow.com/questions/69759477/spark-kryo-serialization-issue.

OpenHashMap未在我的代码中使用，似乎在此期间 KryoSerializer 存在错误Pipeline.fit()功能。有什么想法可以解决这个问题吗？谢谢！

编辑：我还尝试在单元测试期间删除 KryoSerializer 的使用：

spark = SparkSession
      .builder
      .master("local[*]")
      .appName("UnitTest")
      .config("spark.serializer", "org.apache.spark.serializer.JavaSerializer")
      .config("spark.driver.bindAddress", "127.0.0.1")
      .getOrCreate()

确认我正在使用 JavaSerializer：println(spark.conf.get("spark.serializer"))输出org.apache.spark.serializer.JavaSerializer。然而，即使不使用 KryoSerializer，仍然存在同样的问题。

尝试更改sparkVersion。
版本也有同样的问题3.1.0
变成3.3.2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap 的相关文章

使用intellij Scala编译错误

我正在尝试使用 intelliJ 14 1 4 编译混合 java scala 代码但它一直给我这个错误 Error Compiling SBT component compiler interface 2 9 2 52 0 我尝试降级我
缓存隐式解析

为了减少项目的编译时间我缓存了通过隐式查找解析的某些类型类但这看起来有点麻烦因为直接的实现不起作用 scala gt implicit val x String implicitly String x String null 隐式查找
将参数传递给 Scala 对象

是否可以从外部对象初始化 Scala 对象我尝试初始化的 Scala 对象没有任何 Companion 类这是一个例子 object ObjectA val mongoDBConnectionURI This is the Val th
如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南但是我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件任何建议文档详细信息都会有
如何将枚举绑定到 playframework 表单？

我有一个以下形式的枚举 object MatchFilterType extends Enumeration type MatchFilterType Value val gt Value gt val lt Value lt val eq
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
在sbt的build.sbt文件中添加模块依赖信息

我在 IntelliJ 中有一个多模块项目如该屏幕截图所示 contexProcessor 模块依赖于 contextSummary 模块一旦我在项目结构中设置了依赖项 IntelliJ 就会处理所有事情然而当我跑步时sbt tes
抽象类型与类型参数

在什么情况下抽象类型应该优先于类型参数添加到我的之前关于抽象类型与参数的回答 https stackoverflow com questions 1154571 scala abstract types vs generics 11547
使用值类参数的 Mockito 存根方法失败并出现 NullPointerException

使用类型化值类作为 ID 是 Scala 中的常见模式然而在存根以值类作为参数的方法时 Mockito 似乎遇到了问题在下面的示例中第一个具有实际值的存根工作得很好但第二个使用参数匹配器的存根会抛出 NullPointerExce
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
Pyspark 应用程序仅部分利用 dataproc 集群资源

我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录上运行 UDF 使用常规 python lambda 函数大约需要 100 小时我创建了一个 Google Dataproc 集群其中包含 20 个工
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
如何在不进行硬编码的情况下使用 Cake 模式进行依赖注入？

我刚刚阅读并享受蛋糕图案文章 http jonasboner com real world scala dependency injection di 然而在我看来使用依赖项注入的关键原因之一是您可以改变 XML 文件或命令行参数所使用
如何在 Scala 中跳过可选参数？

给定以下带有可选参数的函数 def foo a Int 1 b Int 2 c Int 3 我想保留默认值a但将新值传递给b and c仅通过位置赋值而不是通过命名赋值即以下任何语法都可以 foo 5 7 foo 5 7 Scala 可
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
JavaScript 中 Scala View 的等效项

在斯卡拉中 view允许防止创建全新的集合例如在Scala中视图有什么作用 https stackoverflow com questions 6799648 in scala what does view do JavaScript
使用新的反射API，如何找到类的主构造函数？

您可以像这样获取类的所有构造函数 import scala reflect runtime universe val ctor typeOf SomeClass declaration nme CONSTRUCTOR asTerm alte

随机推荐

获取 FTP 服务器上的文件大小并将其放在标签上

我正在尝试获取托管在FTP服务器并将其放入Label而 BackgroundWorker 在后台工作我在用着 Try 来获取该值但是该值在第一次尝试时被捕获下载后如果我按尝试再次获取它那么它就可以工作 Note 第一次尝试时进度条
glibc 堆一致性检查

根据2008年的帖子我现在找不到 glibc 堆检查 http www gnu org s libc manual html node Heap Consistency Checking html在多线程环境中不起作用现在还是2010年
叠加 SKScene 未显示

我正在尝试将 SKScene 覆盖在 SCNScene 上当我在模拟器和 iPhone6 上运行我的应用程序时 overlayScene SKScene 按预期显示但是当我尝试在 iPhone5 上运行它尝试了 2 个不同的设备时
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Firebase ref.removeAllObservers() 是否也会递归删除子观察者？

我看到了一些与此相关的问题但没有一个真正证实了我的疑问 If I removeAllObservers 在父节点上这是否也会递归地删除可能已附加在所有子节点和子节点的子节点等处的所有其他观察者递归地 API 文档为removeAllO
稍后解决承诺

我想构建一个 Promise 但将解决方案推迟到以后下面的代码创建了一个承诺但它立即得到解决我如何控制承诺何时被评估 var p new Promise resolve reject gt resolve 1 then p1 gt c
Doctrine EntityManager 清除嵌套实体中的方法

我想用学说批量插入处理 http doctrine orm readthedocs org en latest reference batch processing html为了优化大量实体的插入问题出在 Clear 方法上它表示此方法
在 Visual Studio 2010 中从 Fortran 调用 C++ 函数

我想从 Fortran 调用 C 函数为此我在 Visual Studio 2010 中创建了一个 FORTRAN 项目之后我将一个 Cpp 项目添加到该 FORTRAN 项目中当我要构建程序时出现以下错误 Error 1 unr
Javascript 数组到 VBScript

我有一个使用 Javascript 构建的对象数组我需要使用 VBScript 读取它如下例所示我找不到在 VbScript 代码中循环遍历数组的方法myArray object 这个例子是我的问题的简化我无法更改页面的默认语言这
打印 OSGI 包类路径？

在普通的 java 应用程序中可以使用以下命令打印类路径的内容 String ss System getProperty java class path System out println ss 但是如何打印使用 eclipse PDE
cometd 和 jetty 的问题 6 / 7

我正在尝试开始使用 cometd http cometd org http cometd org 和码头 6 或 7 但我似乎遇到了问题我有一个 ant 脚本它将我的代码打包成与 cometd 1 1 1 二进制文件和 jetty 二进
如何在 Android 中从 WorkManager 取消工作？

我已经保存了 WorkManagerUUID转换成String在领域数据库中这是代码 Constraints constraints new Constraints Builder setRequiredNetworkType Netwo
如何使用tampermonkey模拟react应用程序中的点击？

我正在尝试使用 Tampermonkey 脚本模拟对 React 元素的点击不幸的是由于 React 有自己的影子 DOM 所以天真的方法使用document querySelector 不工作我遇到了一些需要修改 React 组件本
您使用什么物理 Android 设备进行测试？

有什么好的推荐用于测试目的的物理 Android 设备吗我正在苹果阵营寻找像 iPod touch 这样的设备可以帮助 iOS 开发人员测试他们的东西我知道有 Nexus One 但那东西相当昂贵而且我并不真正关心手机的东西而是可
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
qdbusxml2cpp 未知类型

在使用 qdbusxml2cpp 程序将以下 xml 转换为 Qt 类时我收到此错误 qdbusxml2cpp c ObjectManager a ObjectManager ObjectManager cpp xml object ma
CURL 中的 data-urlencode 是什么意思？

我搜索了很多个小时试图弄清楚 php curl 中的 data urlencode 是什么我尝试过这个但我认为这是不对的 xmlpost object1 file https www lob com goblue pdf 在文档中是 d
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT

Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap 的相关文章

随机推荐

热门标签