Spark 编码器：何时使用 beans()

2024-04-25

我在使用Spark的缓存机制时遇到了内存管理问题。我目前正在使用Encoder我正在使用 Kryo，想知道切换到 beans 是否可以帮助我减少缓存数据集的大小。

基本上，在使用时使用 beans 相对于 Kryo 序列化有哪些优点和缺点Encoder是？有任何性能改进吗？有没有办法压缩缓存Dataset除了使用 SER 选项进行缓存之外？

作为记录，我发现了一个类似的topic https://stackoverflow.com/questions/50356088/spark-dataset-encoders-kryo-vs-bean这解决了两者之间的比较。然而，它没有详细讨论这个比较。

随时你可以。与通用二进制不同Encoders，它使用通用二进制序列化并将整个对象存储为不透明的 blob，Encoders.bean[T]利用对象的结构来提供特定于类的存储布局。

当您比较使用创建的模式时，这种差异变得显而易见Encoders.bean and Encoders.kryo.

为什么这有关系？

您可以使用 SQL API 获得高效的字段访问，无需反序列化，并且完全支持所有Dataset转变。
通过透明的字段序列化，您可以充分利用列式存储，包括内置压缩。

那么什么时候使用kryo Encoder？一般来说，当其他方法都不起作用时。就我个人而言，我会完全避免它进行数据序列化。我能想到的唯一真正有用的应用程序是聚合缓冲区的序列化（例如检查如何在 Spark SQL 中查找分组向量列的平均值？ https://stackoverflow.com/q/41731865/6910411).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 编码器：何时使用 beans() 的相关文章

Keras 导入错误 Nadam

我在尝试导入 Keras 模块 Nadam 时遇到导入错误 gt gt gt from keras optimizers import Nadam Traceback most recent call last File
使用 cts:query 检查属性是否缺失

我有一个 XML 片段我希望根据 id 属性的存在进行不同的查询
在 Emacs ruby 模式下使用制表符缩进而不是空格

我一直在尝试配置 Emacs 以便在缩进 Ruby 代码时插入一个制表符而不是一系列空格到目前为止我已经尝试设置 varruby indent tabs mode to t这样根据文档它将如果非零则在 ruby 模式下插入
线程安全框架

以下类不是线程安全的如证明以下代码不是线程安全的 https stackoverflow com questions 2410499 proving the following code not thread safe 是否有一个框架可以
与 IPython 内核分离而不终止它

有人可以告诉我如何在不终止 IPython 内核的情况下分离它吗我在文档中看到quit 有一个参数keep kernel 但不幸的是quit keep kernel True 行不通的如果您通过 IPython 控制台客户端连接到内核并
Angular 显示每个 HTTP 请求的微调器，只需很少的代码更改

我正在开发一个现有的 Angular 应用程序版本是 Angular 4 该应用程序从许多不同的组件对 REST API 进行 HTTP 调用我想为每个 HTTP 请求显示一个自定义微调器由于这是一个现有的应用程序因此有很多地方调用
使用 ui-router 转到祖父母状态

With ui router我可以用 state go 无需指定其完整路径即可转到父状态有没有类似的方式去祖父母状态我的父母状态是抽象的 In 文档示例 http angular ui github io ui router site
Vim 中的空格作为制表符和退格键行为

在我的 vimrc 中我有 set shiftwidth 4 set tabstop 4 set expandtab 当我点击 Tab 按钮时设置为使用 4 个空格而不是 Tab 但是当我在 Tab 之后按退格键时我需要退格所有 4 个
Google 放置 API：从 CID 到参考？

我的目标用已知的商业地点填充数据库以便生成包含这些地点的地图我坚持使用已知地点因为我的用户只会搜索数据库中的地点我不想在地图上重新创建商业地点作为标记因此纬度和经度不足以识别地点因为这些地点已经在 Google 地图上提供了
使用 ADB 或 java 代码更改默认的 Android 键盘

我正在构建一个使用特定键盘的自定义应用程序因此当用户运行该应用程序时默认键盘应更改为我的特定键盘名称为黑客键盘我如何使用java代码或从java代码调用adb命令来做到这一点我的设备已获得 root 权限这又是特定的应用程序而
未捕获的类型错误：未定义不是 indexOf 上的函数

我目前有此代码来检查特定 ID 的网站 URL GET 选项但每当运行此代码时我都会收到一个奇怪的错误 Uncaught TypeError Undefined is not a function 这是我的代码如果我能得到关于这个问题
提高大型结构列表的二进制序列化性能

我有一个以 3 个整数保存 3d 坐标的结构在测试中我将 100 万个随机点放在一起 List 然后对内存流使用二进制序列化内存流大小约为 21 MB 这似乎非常低效因为 1000000 点 3 坐标 4 字节应该至少为 11MB
iphone总是返回UIInterfaceOrientationPortrait

我需要确保当我的UIViewController负载它根据需要旋转我已经实施了shouldAutorotateToInterfaceOrientation方法及其所有工作正常除非应用程序首次加载时当 iphone 处于横向模式时或
JavaScript Intellisense 在 Visual Studio 2015 中不起作用

我知道这个问题在网上以及整个网络上都有很多重复的问题不幸的是所提出的建议都不起作用除了重新安装 VS 15 之外我已经完成了所有操作如果我可以帮助的话我宁愿不这样做我去过的一个网站 references js 背后的故事 ht
VBA - 循环遍历表单上的控件并读取值

我想循环遍历表单上的控件并读取值但是 Value 和 Checked 属性不可用我的问题是当我循环访问控件在本例中为复选框时如何读取它们的值 Dim Ctrl as Control For Each Ctrl In frmMai
如何提高MySQL INSERT和UPDATE性能？

我们数据库中的 INSERT 和 UPDATE 语句的性能似乎正在下降并导致我们的 Web 应用程序性能不佳表是InnoDB 应用程序使用事务我可以做一些简单的调整来加快速度吗我认为我们可能会遇到一些锁定问题我怎样才能找到答案你
iOS：iOS 4.3 和 5.0 之间不同的 addSubview 行为

之前在 iOS 4 3 中编码时我发现将视图控制器的视图添加到另一个视图时 superview addSubView controller view 控制器实例将不会收到 viewWillAppear viewDidAppear消息比我
带有 wsdl2java 插件的 gradle

我正在使用 no nils wsdl2java 插件完整的 gradle build 文件如下所示 plugins id org springframework boot version 2 3 4 RELEASE id io sprin
通过网络共享的 SQL CE

我之前见过这个问题但找不到关于什么是可能不可能以及什么解决方法可能可用的明确解释我有一个现有的 C 应用程序它使用 SQL CE 来存储本地信息该数据库只能由单个应用程序访问并存储在用户的 appdata 文件夹中某些环境将
setInterval 会导致浏览器挂起吗？

几年前我被警告不要使用setInterval很长一段时间因为如果被调用的函数运行时间超过指定的时间间隔可能会导致浏览器挂起然后无法跟上 setInterval function foo bar i 1 现在我知道在循环中添加大量代

随机推荐

使用 LLVM 内联特定函数调用

给定一个llvm CallInst 我如何告诉内联器内联这个特定的调用我可以将目标函数标记为AlwaysInline这将内联调用但它也会内联每个调用也许有某种方法可以在我发出特定调用时调用内联函数内联基本块内的所有调用也可以您可以
使用 BigQuery Spark 连接器通过 Datalab 从 Dataproc 连接到 BigQuery 时出错（从元数据服务器获取访问令牌时出错）

我有 BigQuery 表 Dataproc 集群带有 Datalab 并且遵循本指南 https cloud google com dataproc docs tutorials bigquery connector spark exa
使用 PHP json_encode() 和 MySQL 返回 JSON 对象以传递给 jQuery 函数 [重复]

这个问题在这里已经有答案了我正在尝试从 MySQL 结果创建一个 json 对象但没有得到我需要的结果这是 PHP json array result mysqli query connection query echo while
CPU缓存性能。存储未命中与加载未命中

我使用 perf 作为基本事件计数器我正在开发一个遭受数据缓存存储未命中的程序其中比例高达80 我知道缓存原则上是如何工作的它会在各种未命中情况下从内存加载并在需要时从缓存中删除数据我不明白的是存储未命中和加载未命中之间有什么区
尝试使用 std::add_const 将 T& 转换为 const T&

我有一个 T 它有一个函数的常量和非常量版本我想调用该函数的 const 版本我尝试使用 std add const 将 T 转换为 const T 但它不起作用我做错了什么以及如何解决它这是一个简单的例子 void f int s
Windows Phone 应用程序栏的图标颜色

应用栏图标的颜色到底什么时候改变即从白色变为黑色或从黑色变为白色当主题从黑色切换为白色时或者当应用程序栏的背景画笔改变时如果我想应用自己的自定义主题以便应用程序栏始终为白色该怎么办我使用黑色图标但即使应用程序栏是白色的因
编写跨环境传输的 URL 的安全方法

我目前正在本地计算机上开发一些软件为了这个问题我们来调用一下这个软件StackOverflow 我有以下页面 C sites StackOverflow index php C sites StackOverflow content p
Javascript - 如何创建按键事件？

我在互联网上查找过这一点我所能找到的都是已弃用的函数在发布之前请检查以确保您建议的代码没有被弃用我发现了这个并尝试过 https developer mozilla org en US docs Web API KeyboardEve
Python Flask 应用程序在本地运行，但在 Heroku 上托管时返回 AttributeError

我正在开发大学申请该 Web 应用程序使用 joblib 加载给定模型并且为了工作它使用了 FlexibleScaler 类灵活 py from sklearn preprocessing import MinMaxScaler S
将自定义文件夹添加到 bazel java 测试中的类路径

我正在尝试将大型代码库从 Maven 迁移到 bazel 我发现一些测试写入target classes and target test classes并且生产代码将其读取为类路径上的资源这是因为 maven Surefire fails
E2E：使用 Wix Detox 从 UIImagePickerController 选择图像

Description 我需要编写一个 e2e 测试在某些时候它必须在 UIImagePickerController 中选择一个图像我尝试使用element by type UIImagePickerController tapAtP
如何使用python opencv2减去两个图像以获得前景对象

有没有办法在 python opencv2 中减去两个图像图片 1 任何图像例如房屋图像静态图像图 2 带有物体的同一图像在房子里一个人站着静态图像动态物体图片 3 图片 2 图片 1 如果我们减去Image2 from
Azure 中的 EUAP 区域是什么？

Azure 中的某些区域被称为 EUAP 区域但是我无法找到任何关于这意味着什么的定义 EUAP 代表什么 https learn microsoft com en us dotnet api microsoft azure docume
如何使用 Objective-C 用空格分隔字符串？

假设我有一个像这样的字符串 hello world this may have lots of sp ace or little space 我想将此字符串与此分开 hello world this may have lots of sp
MySQL 更新时会覆盖相同值的列吗？

在MySQL中更新表时例如 Table user user id user name 1 John 2 Joseph 3 Juan 如果我运行查询 UPDATE user SET user name John WHERE user id
单击之前搜索查看查询提示

我有一个搜索视图和一个查询提示属性但是只有在单击搜索视图后才会出现提示有没有办法让它在点击之前出现
SonarQube 6.7 登录时冻结

我刚刚在带有 MySQL 5 7 的 Ubuntu 16 04 服务器上安装了 SonarQube 6 7 我的同事使用 SonarQube 他们从托管在 GitHub 存储库上的源代码添加了他们的项目添加了 3 4 个项目后我们在 M
使用mongoose在mongodb模式中使用ensureIndex

我想打电话ensureIndex on the authorName 命令是什么以及我应该将其放在这段代码中的什么位置 var mongoose require mongoose defines the database schema fo
seo - 图像和 h1

我遇到一种情况我想坚持使用我的徽标而不是 h1 标签的实际文本如果我将关键字放在 alt 标签中而不是实际编写我会在 SEO 上受到影响吗文本和图像同时存在更好吗想法 div h1 a href img src logo jpg
Spark 编码器：何时使用 beans()

我在使用Spark的缓存机制时遇到了内存管理问题我目前正在使用Encoder我正在使用 Kryo 想知道切换到 beans 是否可以帮助我减少缓存数据集的大小基本上在使用时使用 beans 相对于 Kryo 序列化有哪些优点和缺点En

Spark 编码器：何时使用 beans()

Spark 编码器：何时使用 beans() 的相关文章

随机推荐

热门标签