KryoSerializer 找不到我的 SparkKryoRegistrator

2024-04-28

我在 Amazon emr-5.2.1 上以客户端模式使用 Spark 2.0.2。我使用 Kryo 序列化并在我们自己的 KryoRegistrator 中注册我们的类：

val sparkConf = new SparkConf()
    .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    .set("spark.kryo.registrator", classOf[de.gaf.ric.workflow.RicKryoRegistrator].getName)
    .set("spark.kryo.registrationRequired", "true")
    .set("spark.kryoserializer.buffer.max", "512m")
implicit val sc = new SparkContext(sparkConf)

该过程开始正常，但几分钟后，我在执行器上收到以下异常：

17/02/02 16:22:34 ERROR RetryingBlockFetcher: Failed to fetch block rdd_3641_12, and will not retry (0 retries)
java.lang.RuntimeException: org.apache.spark.SparkException: Failed to register classes with Kryo
    at org.apache.spark.serializer.KryoSerializer.newKryo(KryoSerializer.scala:129)
    at org.apache.spark.serializer.KryoSerializerInstance.borrowKryo(KryoSerializer.scala:274)
    at org.apache.spark.serializer.KryoSerializerInstance.<init>(KryoSerializer.scala:259)
    at org.apache.spark.serializer.KryoSerializer.newInstance(KryoSerializer.scala:175)
    at org.apache.spark.serializer.SerializerManager.dataSerializeWithExplicitClassTag(SerializerManager.scala:141)
    at org.apache.spark.storage.BlockManager.org$apache$spark$storage$BlockManager$$doGetLocalBytes(BlockManager.scala:499)
    at org.apache.spark.storage.BlockManager$$anonfun$getLocalBytes$2.apply(BlockManager.scala:474)
    at org.apache.spark.storage.BlockManager$$anonfun$getLocalBytes$2.apply(BlockManager.scala:474)
    at scala.Option.map(Option.scala:146)
    at org.apache.spark.storage.BlockManager.getLocalBytes(BlockManager.scala:474)
    at org.apache.spark.storage.BlockManager.getBlockData(BlockManager.scala:280)
    at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:60)
    at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:60)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:186)
    at org.apache.spark.network.netty.NettyBlockRpcServer.receive(NettyBlockRpcServer.scala:60)
    at org.apache.spark.network.server.TransportRequestHandler.processRpcRequest(TransportRequestHandler.java:159)
    at org.apache.spark.network.server.TransportRequestHandler.handle(TransportRequestHandler.java:107)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:119)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:266)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at org.apache.spark.network.util.TransportFrameDecoder.channelRead(TransportFrameDecoder.java:85)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846)
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.ClassNotFoundException: de.gaf.ric.workflow.RicKryoRegistrator
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.serializer.KryoSerializer$$anonfun$newKryo$5.apply(KryoSerializer.scala:124)
    at org.apache.spark.serializer.KryoSerializer$$anonfun$newKryo$5.apply(KryoSerializer.scala:124)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:186)
    at org.apache.spark.serializer.KryoSerializer.newKryo(KryoSerializer.scala:124)
    ... 43 more

    at org.apache.spark.network.client.TransportResponseHandler.handle(TransportResponseHandler.java:189)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:121)
    at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:266)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at org.apache.spark.network.util.TransportFrameDecoder.channelRead(TransportFrameDecoder.java:85)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294)
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846)
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
    at java.lang.Thread.run(Thread.java:745)

班上RicKryoRegistrator确实包含在我的 uber JAR 中，我仔细检查了这一点。它还被转移到执行者：

17/02/02 16:19:02 INFO Executor: Fetching spark://172.31.20.106:41032/jars/app-imageprocessing-0.13.0-20170202.112920-1.jar with timestamp 1486048690879
17/02/02 16:19:02 INFO TransportClientFactory: Successfully created connection to /172.31.20.106:41032 after 23 ms (0 ms spent in bootstraps)
17/02/02 16:19:02 INFO Utils: Fetching spark://172.31.20.106:41032/jars/app-imageprocessing-0.13.0-20170202.112920-1.jar to /mnt/yarn/usercache/hadoop/appcache/application_1486039395474_0012/spark-8172edd9-d1c7-40c9-ad9b-74b2bd9dbad9/fetchFileTemp6474512860106916303.tmp
17/02/02 16:19:03 INFO Utils: Copying /mnt/yarn/usercache/hadoop/appcache/application_1486039395474_0012/spark-8172edd9-d1c7-40c9-ad9b-74b2bd9dbad9/-68603321486048690879_cache to /mnt/yarn/usercache/hadoop/appcache/application_1486039395474_0012/container_1486039395474_0012_01_000011/./app-imageprocessing-0.13.0-20170202.112920-1.jar
17/02/02 16:19:03 INFO Executor: Adding file:/mnt/yarn/usercache/hadoop/appcache/application_1486039395474_0012/container_1486039395474_0012_01_000011/./app-imageprocessing-0.13.0-20170202.112920-1.jar to class loader

阅读源码org.apache.spark.serializer.KryoSerializer，我看到它使用以下类加载器：

val classLoader = defaultClassLoader.getOrElse(Thread.currentThread.getContextClassLoader)

难道是defaultClassLoader未设置，并且我的 uber JAR 未包含在Thread.currentThread.getContextClassLoader？还有什么原因呢？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

EMR

kryo

KryoSerializer 找不到我的 SparkKryoRegistrator 的相关文章

Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0

随机推荐

React 测试库：测试属性/prop

我正在使用 TypeScript 编写一个 React 应用程序我使用material ui作为我的组件使用react testing library作为我的单元测试我正在为 Material ui 的 Grid 组件编写一个包装器
PhantomJs超时

我使用 Jasmine 和 PhantomJS 来运行测试用例在我的典型测试用例中我拨打服务电话等待响应并确认响应有些请求可能会在几秒钟内返回有些请求可能需要一分钟才能返回当通过 PhantomJS 运行时测试用例因服务调用而
从 MS Graph API 获取联系人时找不到资源

我尝试了下面的 github 示例进行 Azure AD 身份验证并成功通过正确的回调 URL 获取访问令牌 https github com Microsoft BotBuilder Samples tree master sample
xpath查询到xpath查询结果

例如我们有这个 xml a b b a
airflow webserver 命令失败并显示 {filesystemcache.py:224} 错误 - 不允许操作

我正在 Cent OS 7 上安装 Airflow 我已经配置了 Airflow db init 并检查了 nginx 服务器的状态及其工作正常但是当我运行airflow webserver命令时我收到下面提到的错误 2021 03 2
WCF 服务限制

我在控制台应用程序中部署了一个 WCF 服务并启用了 BasicHTTPBinding 和 SSL 还设置了以下属性 AspNetCompatibilityRequirements RequirementsMode AspNetCompa
Chrome 扩展程序端口错误：无法建立连接。接收端不存在

当我尝试从弹出窗口向我的内容脚本发送消息时出现此错误我想做的是从 content js 获取当前选项卡的文档并将其发送到弹出窗口我该如何修复这个错误 manifest version 2 name Chrome Snapshot de
如何抓取 javascript 哈希链接内容？

您好我对使用 Puppeteer 进行网页抓取有点陌生目前我面临下一个问题在我尝试提取信息的网站中我有一个带有典型 js 分页的引导表例如以下示例 https getbootstrap com docs 4 1 component
OR-TOOLS RL VRPTW 问题中的移位长度约束？

我正在尝试在 OR TOOLS RL VRPTW 问题中强制执行移位长度约束班次长度是车辆使用的总时间运输等待服务从到达第一个位置到离开最后一个位置它看起来像一个Time dimension是完美的选择但它累积了第一个位置的窗
我已经在 gradle 编译 'com.firebaseui:firebase-ui-auth:2.3.0' 中写了这一行，但我仍然收到错误“无法解析符号 'AuthUI'”[重复]

这个问题在这里已经有答案了当我单击安装存储库和同步项目链接时什么也没有发生你需要添加这个 maven url https maven google com 项目级别的 build gradle 文件如下所示 allprojects
JDK 1.8（C：\ ...）没有附加IDEA注释，某些问题将无法发现[重复]

这个问题在这里已经有答案了我在3 2 1版本上也遇到这个问题如果我更改 Gradle 版本并使缓存无效它就会起作用更多细节我刚刚找到了解决方案 Android Studio IDE 中的目录如下文件 gt 使缓存无效重新启动
通过gapi.signin2.render按钮的Google OAuth未在React应用程序中触发回调

我使用以下方法在我的反应组件中正确呈现了 Google 登录按钮gapi signin2 render最新 Google 平台网络客户端 api 上的方法 https apis google com js platform js https
Delphi 远程调试器冻结

我有运行 Delphi 2007 应用程序的 Windows Server 2008 R2 计算机 Update 当前无法切换 Delphi 版本我有 Delphi XE 但在进行任何切换之前需要检查超过 300 000 行代码我遇到了
如何使用unittest.mock调试修补方法

我有以下简化的 FBV def check existing contacts request if request is ajax and request method GET print Function called return
在 web.config 中设置 WCF InstanceContextMode（Percall、Single）

通过谷歌搜索还没有遇到过这个我知道我可以通过装饰类名来设置实例 ServiceBehavior InstanceContextMode InstanceContextMode PerCall ConcurrencyMode Concurr
简体中文、繁体中文与地区

在我的 Android 应用程序中实现繁体中文和简体中文支持的过程中我对它应该如何工作感到困惑所以从阅读文档 http developer android com resources tutorials localization ind
使用 boost 库时加快编译/链接时间

我在用着提升计划选项 http www boost org doc libs 1 45 0 doc html program options html 并且用它编译非常小的 C 代码需要相当长的时间 10 秒甚至更多在没有 boost 库
什么时候在 Objective-C 中使用 self ？

现在我使用 Objective C 已有 5 个多月了我的第一个应用程序也在 App Store 上发布了但我仍然对该语言的核心功能存有疑问我什么时候应该使用self访问 iVars 以及何时不访问当释放一个插座时你写self o
突出显示所选行 GridView

当用户从网格视图中单击编辑时我想突出显示该行这是我所做的但没有效果我还缺少什么 SelectedRowStyle background color Yellow
KryoSerializer 找不到我的 SparkKryoRegistrator

我在 Amazon emr 5 2 1 上以客户端模式使用 Spark 2 0 2 我使用 Kryo 序列化并在我们自己的 KryoRegistrator 中注册我们的类 val sparkConf new SparkConf set sp

KryoSerializer 找不到我的 SparkKryoRegistrator

KryoSerializer 找不到我的 SparkKryoRegistrator 的相关文章

随机推荐

热门标签