比较 Spark 中的两个数据帧（性能）

2024-03-01

我需要比较 Spark 应用程序中的两个数据帧。我浏览了以下帖子。如何获取两个DataFrame之间的差异？ https://stackoverflow.com/questions/36199901/how-to-obtain-the-difference-between-two-dataframes

但是，我不明白为什么最佳答案中的方法

df1.unionAll(df2).except(df1.intersect(df2))

比问题中的好

df1.except(df2).union(df2.except(df1))

谁能解释一下吗？据我了解，后者适用于两个较小的数据集，前者适用于大型数据集。是因为后者将其作为 union 的一部分进行了区分吗？即使如此，如果两个数据框更可能具有相同的记录，则在后一种情况下我们正在处理一个小数据集。

让我们考虑这样一个场景：df1 and df2（分别为 N 和 M 的大小）太大而无法广播，但之间没有重叠df1 and df2.

我们称之为结果di。在这种情况下df1.intersect(df2)将需要对 N + M 行进行完全洗牌，但输出的大小将等于 0。在这种情况下df1.unionAll(df2).except(di)可以作为广播连接执行（此类优化可能需要适应性执行 https://issues.apache.org/jira/browse/SPARK-9850除非用户强制制定特定计划）。还需要注意的是，此类计划不需要缓存。

相比之下，成本df1.except(df2).union(df2.except(df1))关于交集的基数将是恒定的。

同时，如果d1太大而无法广播，它已经有一个与以下兼容的分区except，因此剩余的查询不需要额外的随机播放。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

比较 Spark 中的两个数据帧（性能）的相关文章

MI设备中即使应用程序被杀死，如何运行后台服务

您好我正在使用 alaram 管理器运行后台服务它工作正常但对于某些 mi 设备后台服务无法工作我使用了服务但它无法工作如何在 mi 中运行我的后台服务 MI UI有自己的安全选项所以你需要的不仅仅是上面提到的粘性服务你需
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则
Android - 除了普通 SSL 证书之外还验证自签名证书

我有一个通过 SSL 调用 Web 服务的 Android 应用程序在生产中我们将拥有由受信任的 CA 签名的普通 SSL 证书但是我们需要能够支持自签名证书由我们自己的 CA 签名我已经成功实施了接受自签名证书的建议解决方案
如何在 PHP 数组中的另一个已知（通过键或指针）元素之后有效地插入元素？

给定一个数组 a array abc 123 k1 gt v1 k2 gt v2 78 tt k3 gt v3 当其内部指针指向其元素之一时如何在当前元素之后插入元素如何在键已知元素例如 k1 之后插入元素表现护理您可以通过使用拆
Spring Stomp over Websocket：流式传输大文件

我的SockJs客户端在网页中发送帧大小为16K的消息消息大小限制决定了我可以传输的文件的最大大小以下是我在文档中找到的内容 Configure the maximum size for an incoming sub protoco
所有junit测试后的清理

在我的项目中我必须在所有测试之前进行一些存储库设置这是使用一些棘手的静态规则来完成的然而在所有测试之后我不知道如何进行清理我不想保留一些神奇的静态数字来引用所有测试方法的数量我应该一直维护它最受赞赏的方法是添加一些侦听器该侦
Java替换特定字符

这是我在这个网站上的第一个问题所以我会尽量不要成为一个十足的菜鸟我目前正在用java 创建刽子手游戏所以我问你的问题是我们是否被赋予了幽灵这个词并将 Ghost 替换为 hiddenWord ghost length for i
使用 Guava 联合两个 ImmutableEnumSets

我想联合两个ImmutableEnumSets来自番石榴这是我的尝试 public final class OurColors public enum Colors RED GREEN BLUE YELLOW PINK BLACK pub
Java：VM 如何在 32 位处理器上处理 64 位“long”

JVM 如何在 32 位处理器上处理 64 位的原始 long 在多核 32 位机器上可以并行利用多个核心吗 64 位操作在 32 位机器上慢了多少它可能使用多个核心来运行不同的线程但不会并行使用它们进行 64 位计算 64 位长基本上
Install4j：如何在安装结束时执行命令行 java -jar filename.jar

在 Intall4j 中在安装结束时我只想通过执行如下命令行来初始化某些内容 java jar filename jar 我怎样才能归档这个任务install4j Thanks 将运行可执行文件或批处理文件操作添加到安装屏幕并设
具有多种值类型的 Java 枚举

基本上我所做的是为国家编写一个枚举我希望不仅能够像国家一样访问它们而且还能够访问它们的缩写以及它们是否是原始殖民地 public enum States MASSACHUSETTS Massachusetts MA true MICHI
如何为 Jackson 编写一个包罗万象的（反）序列化器

当您提前知道类型时编写自定义序列化器非常容易例如 MyType一个人可以写一个MyTypeSerializer extends StdSerializer
ExceptionHandler 不适用于 Throwable

我们的应用程序是基于 Spring MVC 的 REST 应用程序我正在尝试使用 ExceptionHandler 注释来处理所有错误和异常 I have ExceptionHandler Throwable class public R
阻止 OSX 变音符号为所有用户禁用 Java 中的 KeyBindings？

注我知道这个问题 https stackoverflow com questions 40335285 java keybinds stop working after holding down a key用户必须输入终端命令才能解决此问
如何移动图像（动画）？

我正在尝试在 x 轴上移动船还没有键盘我如何将运动动画与boat png而不是任何其他图像 public class Mama extends Applet implements Runnable int width height i
struts 教程或示例

我正在尝试在 Struts 中制作一个登录页面这个想法是验证用户是否存在等然后如果有错误则返回到登录页面错误显示为红色典型的登录或任何表单页面验证我想知道是否有人知道 Struts 中的错误管理教程我正在专门寻找有关的教程或
Spock模拟inputStream导致无限循环

我有一个代码 gridFSFile inputStream bytes 当我尝试这样测试时 given def inputStream Mock InputStream def gridFSDBFile Mock GridFSDBFile
重写Object类的finalize()方法有什么用？

据我所知在java中如果我们想手动调用垃圾收集器我们可以执行System gc 1 我们在重写的finalize 方法中做了哪些操作 2 如果我们想手动调用JVM垃圾收集器是否需要重写finalize 方法我们在重写的 Finali
Java中获取集合的幂集

的幂集为 1 2 3 is 2 3 2 3 1 2 1 3 1 2 3 1 假设我有一个Set在爪哇中 Set
在 Scala 中创建任意类作为 monad 实例

为了使任何东西都可以在 monad 上下文中操作如果使用 Haskell 我只需在任何地方为给定类型添加类 Monad 的实现所以我根本不接触数据类型定义的来源像人造的东西 data Z a MyZLeft a MyZRight a

随机推荐

与需要参数的工厂方法统一

我想使用需要参数的工厂方法在 Unity 容器中注册类型这些参数将由统一解析但只能在运行时解析工厂方法代码 public static IApp Create IOne ITwo 注册码 container RegisterType
如何将包含 JPanel 的 JScrollPane 视口滚动到特定位置

我正在尝试创建一个大型游戏板其中只有一部分在视口中可见并且希望能够使用箭头键移动视口以查看整个板现在我有一个 JScrollPane 其中包含一个 JPanel 其中包含图像文本和其他内容但这些都是无关紧要的现在我有一个与 JP
如何使用 Python 3.5.1 从列表中打印多个不连续的值

我创建了一个列表并想从列表中选择一些要打印的项目下面我只想在索引 0 处打印 bear 在索引 3 处打印 kangaroo 我的语法不正确 gt gt gt animals bear python peacock kangaroo
使用 C++ 线程模拟 pthread_kill

如何使用 C 线程模拟 pthread kill 函数我之前问过这个问题但没有得到回应 thread native handle 函数在这里有帮助吗所以这个问题的答案是依赖平台相关的功能并使用std thread native han
Bash for 循环打印出意外的输出，为什么呢？

我编写了一个脚本用于查询 AWS Route53 上的 dns 区域并返回特定服务器的 IP 目的是在启动 CloudFormation 堆栈后运行此脚本并且该脚本将更新我的本地 ssh config包含更新的服务器 IP 的文件我想
故事板中的自动布局，如何将子视图的宽度设置为其超级视图的 1/3？

我知道这可能非常简单但是我试图弄清楚如何告诉子视图其宽度需要是其父视图宽度的 1 3 我想在故事板中执行此操作而不是在代码中所以情况非常简单只是 ViewController 视图中的 UIView 如何在故事板中使用自动布局来完
如何保存 pgAdmin 4 中的更改

我是 postgreSQL 的初学者有 2 台服务器我想删除一台我单击删除服务器但是当我退出程序时我无法保存此更改并且在重新打开程序时第二个服务器又回来了这看起来非常简单但我找不到任何明显的方法来保存此更改请帮忙当您
预测多个单独组的线性回归

我想预测单个数据框中多个组的线性回归的值我发现以下博客文章几乎可以满足我需要的一切 https www r bloggers com 2016 09 running a model on separate groups https www
如何在 Xcode 中更改 MyFramework_vers.c 的编译标志？

启用 Apple 通用版本控制后 Xcode 会自动生成MyFramework vers c文件在DERIVED SOURCES DIR 其中包含版本字符串和数字定义为const unsigned char and const doubl
AWS 承担 EC2 实例 IAM 角色的角色不起作用

在我们的应用程序中我们使用自定义角色访问 aws API 在开发环境中我们在app config中提供了access Key和secret key 效果很好在生产环境中我们设置了一个 IAM 角色该角色具有自定义角色的必要权限并
避免使用第三方宝石是否正确？

我正在使用 Ruby on Rails 3 2 2 我想知道以下想法是否源自我的上一个问题 https stackoverflow com questions 11190792 how to properly add brackets t
Android 视图裁剪

Is there any way to define the clip region of a ViewGroup in android Honeycomb For example I have a ListView with an ima
元素 xpath 无法位于父视图中

我需要自定义从销售模块中打印的字段因此我创建了一个新模块并安装了它我已经创建了一个 XML 文件但出现以下错误 odoo tools convert ParseError Error while validating constrai
如果照片 #123 不存在，我应该向 /photo.php?id=123 这样的请求抛出 404 错误吗？

该脚本将从如下 URL 调用example com photo php id 123 or example com photos 123取决于是否启用了漂亮的 URL 功能如果照片 123 不存在则请求example com photo
unique_ptr::release() 是否调用析构函数？

这段代码正确吗 auto v make unique
如何将返回值的生命周期设置为我移入其中的变量的生命周期？

我正在尝试自学一些 Rust 并写了一些看起来像这样的东西 let args Vec
即使压缩后，RDD 大小仍保持不变

我使用 SparkListener 来监视缓存的 RDD 的大小然而我注意到无论我做什么 RDD 的大小始终保持不变我做了以下事情来压缩 RDD val conf new SparkConf setAppName MyApp conf
WireMock播放和录音可以同时使用吗？

我有一个连接到外部第三方API的应用程序最近该API的测试实例并不是特别可靠这会阻止开发进度并将我们的构建管道变成红色因此我想添加一个 HTTP 记录代理来阻止这种情况发生我有过WireMock http wiremock org
当我尝试构建房间时对象引用为空

我想使用我的函数在 Kotlin 中建造房间getDatabase context 我有这个错误 W System err java lang NullPointerException Attempt to invoke virtual m
比较 Spark 中的两个数据帧（性能）

我需要比较 Spark 应用程序中的两个数据帧我浏览了以下帖子如何获取两个DataFrame之间的差异 https stackoverflow com questions 36199901 how to obtain the diffe

比较 Spark 中的两个数据帧（性能）

比较 Spark 中的两个数据帧（性能） 的相关文章

随机推荐

热门标签

比较 Spark 中的两个数据帧（性能）的相关文章