java序列化与kryo序列化的优缺点是什么？

2024-01-24

在spark中，java序列化是默认的，如果kryo那么高效那么为什么不将其设置为默认值。使用 kryo 是否有一些缺点，或者在什么情况下我们应该使用 kryo 或 java 序列化？

这是来自的评论文档 https://spark.apache.org/docs/latest/tuning.html:

Kryo 比 Java 序列化明显更快、更紧凑（通常高达 10 倍），但不支持所有可序列化类型并要求您注册将在程序中使用的类争取最佳表现。

所以默认情况下不使用它，因为：

不是每个java.io.Serializable开箱即用 - 如果您有扩展的自定义类Serializable除非注册，否则它仍然无法使用 Kryo 进行序列化。
需要注册自定义类。

注意根据文档 https://spark.apache.org/docs/latest/tuning.html:

Spark 自动包含 Kryo 序列化器，适用于许多 AllScalaRegistrar 中涵盖的常用核心 Scala 类这推特寒意 https://github.com/twitter/chill图书馆。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

serialization

kryo

java序列化与kryo序列化的优缺点是什么？的相关文章

django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
我们为什么使用序列化？

为什么我们需要使用序列化如果我们想通过网络发送一个对象或一段数据我们可以使用字节流如果我们想将一些数据保存到磁盘上我们可以再次使用二进制模式和字节流来保存它那么使用序列化有什么好处呢从技术上讲在低级别上您的序列化对象也将最终
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
更改 JSON.NET 序列化属性名称的方式

如何更改 Newtonsoft JSON NET 序列化对象属性名称的方式有几种方法 You can manually control how it serializes using the JsonTextWriter class ht
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
使用 protobuf-net 序列化继承的类

我在使用 protobuf net 序列化派生类时遇到问题我不知道是因为不支持还是我做错了什么我有一个通用基类我可以直接序列化然后我对其进行专门化但我无法序列化这个基类以下是两个类的代码和使用示例难道我做错了什么 Edit
什么是对象序列化和反序列化？

什么是对象序列化 and 反序列化序列化与读取对象的属性然后用它们填充 DataRow 的列最后将 DataRow 保存在数据库中等普通技术有什么区别序列化通常是指创建可用于存储可能在文件中通过网络传输或仅用于进程之间传输的数据
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
Rails 3.2：用 json 序列化中的空字符串替换 null 值

我正在使用 Rails 3 2序列化 http www simonecarletti com blog 2010 04 inside ruby on rails serializing ruby objects with json 将 ru
复杂对象MVC3的JSON序列化

我有一个问题我似乎不知道如何序列化类型的对象 public class SchedulingCalendarMonth public List
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List

随机推荐

没有路由器提供商？

我收到此错误异常 AppComponent 类 AppComponent 中出现错误内联 template 0 0 原因是没有路由器提供商这是我的应用程序组件 import Component from angular core i
如何将重新训练的 Sagemaker 模型部署到端点？

With an sagemaker estimator Estimator 我想重新deploy https sagemaker readthedocs io en stable api training estimators html s
是否可以让 Git 知道现有的 .gitmodules 文件？

我添加了一个子模块 git submodule add git github com chneukirchen rack git rack A file gitmodules创建如下 submodule rack path rack url
canvas.getImageData：“未捕获错误：SECURITY_ERR：DOM 异常 18”

我读到不可能在从不同域加载的图像上使用 getImageData 有什么技巧可以克服这个吗 Thanks 您可以在您的域上创建一个代理脚本用于转发来自其他域的图像
如何让 nginx 同时处理 fastcgi 请求？

在 ubuntu 18 04 上使用最小的 fastcgi nginx 配置看起来 nginx 一次只处理一个 fastcgi 请求 nginx configuration location cgi Fastcgi socket fast
如何在没有 Extbase 的情况下渲染流体视图模板？在电子邮件模板中通过 eID

我想通过 TYPO3 eID 脚本使用 Fluid 模板文件来呈现邮件正文来发送电子邮件我找不到一种简单的方法来在正常的 MVC Extbase 上下文之外初始化 Fuid 视图我发现的所有来源似乎都已过时且非常复杂那么渲染流体模板需
Angular JS 可调整大小的 div 指令

我的网站将有多个部分我打算调整每个部分的大小为了实现这一点我制定了一个可调整大小指令例如 div class workspace div class leftcol 使用看起来像这样的指令 lwpApp directive re
Django自定义唯一共同约束

我有一个用户共享模型如下所示 class Share models Model sharer models ForeignKey User verbose name Sharer related name sharer receiver
导入文本文件并在Java中逐行读取

我想知道如何导入文本文件我想导入一个文件然后逐行读取它 thanks 我不知道导入文件是什么意思但这是仅使用标准 Java 类逐行打开和读取文本文件的最简单方法这应该适用于 JDK1 1 之前的所有 Java SE 版本对于
Spring+Hibernate 与 Hibernate 配置。 UnsupportedOperationException的原因：BasicDataSource不支持

最初我只使用hibernate 我有以下hibernate cfg xml
如何编辑损坏的 bash 配置文件 [重复]

这个问题在这里已经有答案了我在 bash 配置文件中导出了不正确的 PATH 并且无法再打开它进行编辑更糟糕的是我的终端基本上因此完全损坏了如果我跑vim bash profile 我收到以下错误 bash vim 找不到命令 ba
如何删除postgres中特定模式中的每个表？

如何删除特定架构中的所有表仅应删除架构中的表我已经有了使用下面的代码获取的所有表名称但是如何删除所有这些表以下是一些 psycopg2 代码下面是生成的 SQL writeCon execute SELECT table name
Python请求：从数据库加载SSL证书

我在用requests使用 https 协议中的 Web 服务我曾经通过设置来验证服务器证书verify作为证书的文件路径但现在我想将服务器证书存储到数据库中在运行时证书将以字符串形式加载到内存中问题是是否可以将服务器证书传递给r
std::pair 内的初始化列表

这段代码 include
跟踪 gradle 脚本中每个任务的执行时间？

跟踪 gradle 构建脚本中任务花费多长时间的执行时间的最优雅方法是什么在最佳情况下将时间直接记录到任务名称的同一行或下一行 buildSrc testClasses 0 518 secs fooBar 28 652 secs 只是为
尽管在 conda-forge 中找到了软件包，但无法满足 conda 软件包：软件包 XXX 需要软件包 YYY，但无法安装任何提供程序

我正在尝试创建一个简单的环境 channels rdonnelly bioconda anaconda r conda forge defaults dependencies bioconda bioconductor mixomics g
使用 PHP 和/或 Javascript 进行屏幕抓取？

只是想知道是否可以使用 PHP 脚本或 JavaScript 来屏幕抓取您正在查看的页面例如在 iframe 中加载页面然后将该视图保存为 JPEG 我确信这是可能的但是是否有任何已知的实现库可以提供帮助不抱歉这对于 Jav
是否可以在 Google Cloud Console 中仅对帐户设置 storage.buckets.get 权限？

如何为用户设置此权限我只看到相关的Storage gt Storage admin它提供了storage buckets 但是我不希望此用户帐户具有如此广泛的权限我从该页面确定了上述信息 https cloud google com s
哪个安装程序安装 Microsoft.Web.Publishing.Tasks.dll？

我们的构建脚本包含一个使用的任务Microsoft Web Publishing Tasks dll 在文件夹中 MSBuildExtensionsPath32 Microsoft VisualStudio v10 0 Web where
java序列化与kryo序列化的优缺点是什么？

在spark中 java序列化是默认的如果kryo那么高效那么为什么不将其设置为默认值使用 kryo 是否有一些缺点或者在什么情况下我们应该使用 kryo 或 java 序列化这是来自的评论文档 https spark apache

java序列化与kryo序列化的优缺点是什么？

java序列化与kryo序列化的优缺点是什么？ 的相关文章

随机推荐

热门标签

java序列化与kryo序列化的优缺点是什么？的相关文章