Spark 数据集编码器：kryo() 与 bean()

2024-04-25

在 Spark 中处理数据集时，我们需要指定编码器来序列化和反序列化对象。我们可以选择使用Encoders.bean(Class<T>) or Encoders.kryo(Class<T>).

它们有何不同？使用其中一种与另一种相比对性能有何影响？

出于多种原因，始终建议使用 Kryo 序列化到 Java 序列化。其中一些如下。

Kryo 序列化比 Java 序列化更快。
Kryo 序列化使用更少的内存占用，尤其是在您可能需要的情况下Cache() and Persist()。这在以下阶段非常有帮助：Shuffling.
尽管 Kryo 支持缓存和混洗，但在磁盘持久化期间不支持。
saveAsObjectFile在 RDD 上和objectFile方法上SparkContext仅支持java序列化。
您在数据集中处理的自定义数据类型越多，处理它们的复杂性就越高。因此，使用像 Kryo 这样的统一序列化通常是最佳实践。
Java 的序列化框架是出了名的低效，它消耗太多的 CPU、RAM 和大小，无法成为合适的大规模序列化格式。
Java 序列化在序列化对象时需要存储完全限定的类名。但是，Kryo 可以通过保存/注册类来避免这种情况sparkConf.registerKryoClasses(Array( classOf[A], classOf[B], ...)) or sparkConf.set("spark.kryo.registrator", "MyKryoRegistrator")。这节省了大量空间并避免了不必要的元数据。

之间的区别bean() and javaSerialization()java序列化是序列化类型的对象T使用通用的java序列化。该编码器映射T转换为单字节数组（二进制）字段。其中 as bean 为 Java Bean 类型创建编码器T。它们都使用 Java 序列化，唯一的区别是它们如何将对象表示为字节。

引用自文档

JavaSerialization 效率极低，只能用作最后一招。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 数据集编码器：kryo() 与 bean() 的相关文章

Spark Dataframe 列可为 null 的属性更改

我想更改 Spark Dataframe 中特定列的可为空属性如果我当前打印数据框的模式它看起来如下所示 col1 string nullable false col2 string nullable true col3 string
使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序并且看到记录了大量 SparkException 由 ConcurrentModificationException 引起当我启动本地 Spark 实例
Spark parquet 分区：大量文件

我正在尝试利用 Spark 分区我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件如果我尝试从根目录读取则会导致读取速度变慢为了避
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed

随机推荐

如何在 Shiny R 应用程序中为 selectInput 获取从 server.R 到 ui.R 的选项向量

我的 ui R 文件有一个这样的 selectInput selectInput variable1 Choose Option camps where camps应该是一个选项向量该向量取决于在服务器脚本上运行并返回营地 ID 的 sq
使用 scala 检索与给定节点相关的 neo4j 节点

我有 2 个名为 User node 和 Article node 的节点它们通过关系相关联文章节点 gt Written By gt 用户节点如何获取给定用户节点写入的所有文章节点我假设您正在使用嵌入式 neo4j 因此有一个类型
如何从 C 代码调用 powershell 脚本

就我而言我需要从 c 或 c 代码源调用 powershell 脚本发现了一些非常笨拙且不适用于 c 的链接我只是想要一个路线图如果可能的话调用列出代码中的目录内容的 powershell 脚本用 C 或 C 编写的片段 C 代码
将长准引号匹配器存储在变量中

我试图避免在比赛中重复出现长准引号所以我想将其转换为 def appendTree clazz ClassDef tree Tree ClassDef clazz match case q mods class tpname tpara
如何Moq Fluent接口/链方法

我正在使用 Daniel Cazzulino 的 moq 框架 kzu 版本 4 10 1 我想要最小起订量这样我就可以测试功能的特定部分下面是我可以提取的代码的简单版本流畅链方法的设计是为了让您可以通过 Id 获取对象并在需要时
JQuery 切换图像 CSS

我正在使用 Jquery 更改某些图像的 css 它可以工作并在单击时更改图像 css 大小唯一的问题是当我单击下一张图片时上一张图片仍然存在使用新的 css 切换有没有办法当我点击下一张图片时上一张图片会返回到原来的CSS
为什么 LuaJIT 和 Lua 中的数字舍入格式不同？

Using string format 据说遵循 Csprintf 在 LuaJIT 轮次中格式化数字与我尝试过的所有其他 Lua 解释器不同 lua v Lua 5 4 1 Copyright C 1994 2020 Lua org PU
如何强制浏览器窗口中的外部链接在 Electron 的默认浏览器中打开？

我正在使用浏览器窗口 https github com atom electron blob master docs api browser window md显示应用程序我想强制在默认浏览器中打开外部链接这是否可能或者我必须以不同的
使用 flextable 中的 add_header_row 创建不同宽度的列

我有数据如下 dat lt structure list rn c type A type B type C freq list c 0 0 0 5 7 16 28 c 2 1 0 5 0 8 c 0 0 3 5 12 53 73 cols
减少 Xamarin.Forms 中的 APK 大小，APK 大小 80MB

无法将 xamarin apk 大小减少到 80 MB 以下执行以下操作启用混淆器配置发布平台活动任何 CPU 启用 Multi Dex true 启用开发人员检测调试和分析 false 链接 SDK 和用户程序集也仅尝试
如何将配置从配置服务传递到 Nest.js 装饰器？

我将 UseInterceptors 与 nestjs platform express 中的 FilesInterceptor 一起使用 FilesInterceptor 允许我传递一些配置例如文件存储文件夹我想传递不精确的值例如
如何解决 @CucumberOptions 中格式选项的弃用问题？

当我使用该选项时format in CucumberOptions对于测试报告它显示格式选项已被弃用如何解决该问题 CucumberOptions monochrome true format html target cucumber
Android：OutofMemoryError：位图大小超出 VM 预算，没有任何原因我看不到

我的画廊超过 600x800 像素 JPEG 时遇到内存不足异常环境我一直在使用 Gallery 来处理 600x800 像素左右的 JPG 图像由于我的内容可能比图像复杂一些因此我将每个视图设置为使用 JPG 包装 ImageVi
如何区分缺少的反序列化字段和空字段？

我想用Serde https serde rs 将一些 JSON 解析为 HTTP PATCH 请求的一部分由于 PATCH 请求不传递整个对象仅传递要更新的相关数据因此我需要能够区分未传递的值和显式设置为的值null 以及存在的值
在 JavaScript 中，是否可以检测 Android 和 iOS 浏览器中的屏幕何时关闭

我正在跟踪我的应用程序的 javascript 报告的一些高得离谱的加载时间并发现当窗口位于后台或显示屏关闭时 Android 和 iOS 会暂停一些 JavaScript 执行在Android上我发现我可以使用window onfo
Python正则表达式提取宽度x深度x高度

我正在尝试从 df 中的描述列中提取项目的物理尺寸以用它创建一个新列尺寸通常以这种格式 120x80x100 出现在长描述的中间例如 Lorem ipsum dolor sit amet consectetur adipiscin
如何向 form_for 中的单个输入添加样式

我正在使用带有 HAML 的 Rails 框架并且我有引导程序设置我将如何单独格式化字段输入我希望名称输入字段为屏幕左侧浮动的 60 价格输入字段为屏幕左侧浮动的 25 我想我是在问如何将类添加到 form for 中的单个输入中谢
使用 LINQ 预加载完整的表

我需要 LINQ 来获取整个表但这似乎不起作用每次我通过 pkey 选择值时都会再次触发选择所以实际上这段代码 DataContext dc new DataContext dc Stores ToList Store st dc
初始化 PHP 交互

我经常发现PHP的交互模式 php a 非常有用但如果我可以启动它并立即执行一些命令来初始化我的环境那会更有用比如运行自动加载器设置一些use命名空间的快捷方式等这是一个例子 include autoloader php use
Spark 数据集编码器：kryo() 与 bean()

在 Spark 中处理数据集时我们需要指定编码器来序列化和反序列化对象我们可以选择使用Encoders bean Class

Spark 数据集编码器：kryo() 与 bean()

Spark 数据集编码器：kryo() 与 bean() 的相关文章

随机推荐

热门标签