pyspark数据帧比较以根据关键字段查找列差异

2024-02-20

我必须使用 pyspark 以性能最高效的方法比较两个数据帧，以找出基于一个或多个关键字段的列差异，因为我必须处理巨大的数据帧

我已经构建了一个使用哈希匹配来比较两个数据帧的解决方案，无需像这样的关键字段匹配data_compare.df_subtract(self.df_db1_hash,self.df_db2_hash)但如果我想使用关键字段匹配，情况会有所不同

注意：我提供了示例预期数据框。实际要求是任何列中与 DataFrame 2 的任何差异都应在输出/预期数据帧中检索。

DataFrame 1:

+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
|     3|  Chennai|  rahman|9848022330|  45000|SanRamon|
|     1|Hyderabad|     ram|9848022338|  50000|      SF|
|     2|Hyderabad|   robin|9848022339|  40000|      LA|
|     4|  sanjose|   romin|9848022331|  45123|SanRamon|
+------+---------+--------+----------+-------+--------+

DataFrame 2:

+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
|     3|  Chennai|  rahman|9848022330|  45000|SanRamon|
|     1|Hyderabad|     ram|9848022338|  50000|      SF|
|     2|Hyderabad|   robin|9848022339|  40000|      LA|
|     4| sandiego|  romino|9848022331|  45123|SanRamon|
+------+---------+--------+----------+-------+--------+

Expected dataframe after comparing dataframe 1 and 2


+------+---------+--------+----------+
|emp_id| emp_city|emp_name| emp_phone|
+------+---------+--------+----------+
|     4| sandiego|  romino|9848022331|
+------+---------+--------+----------+

subract函数是您正在寻找的，它将检查每行的所有列值，并为您提供一个与其他数据帧不同的数据帧。

df2.subtract(df1).select("emp_id","emp_city","emp_name","emp_phone")

正如api文档所说

返回一个新的:class:DataFrame包含此框架中但不包含在另一个框架中的行。
这相当于EXCEPT in SQL.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

apachespark

PySpark

Comparison

apachesparksql

pyspark数据帧比较以根据关键字段查找列差异的相关文章

如果 pandas 数据框中的所有列都有空字符串，则删除行

我有一个数据框如下 Name Age 0 Tom 20 1 nick 21 2 3 krish 19 4 jack 18 5 6 jill 26 7 nick 期望的输出是 Name Age 0 Tom 20 1 nick 21 3 kri
如何在 python 中将最佳概率分布模型拟合到我的数据？

我有大约 20 000 行这样的数据 Id value 1 30 2 3 3 22 n 27 我对我的数据进行了统计平均值33 85 中位数30 99 最小值2 8 最大值206 95 置信区间0 21 所以大多数值在33左右并且有一些
Python - 不使用复制模块的深度复制

本质上问题是创建一个函数 deepcopy L 它将返回列表 L 的深层副本但是我们被告知不要使用 copy 模块或其中的任何函数我是入门课程的初学者老实说我在这方面很挣扎我们真正被告知的唯一一件事是我们应该使用递归来解决问题
Python 中的错误？ threading.Thread.start() 并不总是返回

我有一个很小的 Python 脚本在我看来 threading Thread start 表现出意外因为它不会立即返回在线程内我想调用一个方法boost python基于对象不会立即返回为此我将对象方法包装如下 import
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
将 Python 3.5 项目转换为 Jython - UnicodeDecodeError: 'unicodeescape' 编解码器无法解码位置 4-10 中的字节：非法 Unicode 字符

我的最终目的是将正在运行的 Python 项目转换为 Jython 解释器因为将添加一些 java API Details 最新的 Jython 是 2 7 我的项目可以使用 Python 3 5 运行所以我采取了以下方法第一件事是利
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
带有空格的 Firestore 文档字段名称在 Python 中与 .where() 一起使用时会返回错误

使用 Firebase 的 Cloud Firestore 在 Python 3 7 中编写一个非常简单的程序在程序中我使用 where 下拉集合的一部分然后使用 for 循环对其进行迭代当任何带有空格的字段名称被传递到 where
matplotlib 图形的乳胶渲染文本中的中心标题

我想将 Matplotlib 图形的标题居中其中在渲染 LaTeX 样式时包含换行符返回在标题中间插入 Latex 的简单返回代码可以工作但不会使其居中从而导致换行符从第一行尴尬地移动 from matplotlib import
如何使用 PyCharm 运行 Pylint

我想将 Pylint 配置为我正在处理的 Python 项目的整个项目目录中的外部工具我尝试将存储库用作模块 init py没有的话这两种方式都不起作用我在设置 Pylint 与 PyCharm 一起运行时遇到困难我知道我应该将它作
芹菜中未处理的异常冻结了工人

我通过 redis 后端在 docker 中运行 celery 我有芹菜搅拌容器芹菜工人容器 Redis容器 celery 工作容器生成 6 个工作进程如果 celery 任务遇到异常工作人员所有工作人员将停止使用作业我尝试稍
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www

随机推荐

如何让 Eclipse 运行我的所有 Groovy 单元测试？

我有一个 Eclipse 项目其中有许多用 Groovy 编写的单元测试我可以使用 Eclipse 的 GUnit 运行配置在每个单独的类中运行测试我打开此配置选择运行单个测试单选按钮然后选择我要运行其测试的类这工作正常但
Doxygen 速度慢

Doxygen 在我们的代码库上运行大约需要 12 小时这主要是因为有大量代码需要处理约 150 万行然而我们很快就无法进行夜间文档更新因为它们花费的时间太长我们已经不得不减少图表深度以将其缩短至 12 小时我已经尝试过标准方
如何在nodejs中将UUID存储为字母数字

Node uuid提供了一个优秀的包来生成uuid https github com broofa node uuid https github com broofa node uuid Generate a v4 random id uu
是否可以提交一系列不同的工作来进行 slurm ？

例如我有一个名为myScript那个过程one输入文件我有一个文件名列表也就是说我需要运行 myScript
我可以在每次除法发生时禁用检查零除法吗？

为了更好地理解 Rust 的恐慌异常机制我编写了以下代码 feature libc extern crate libc fn main let mut x i32 unsafe x libc getchar let y x 65 pri
Coqide 错误：编译的库 Basics.vo 对库做出了不一致的假设

我在 mac os X 上使用 CoqIDE 8 4pl5 当 CoqIDE 转发到此命令时会弹出此错误消息需要导入基础知识错误编译的库 Basics vo 对库做出了不一致的假设 Coq Init Notifications 当我
从 NHibernate 映射文件生成 C# 类的工具？

有什么工具可以从 NHibernate 映射文件生成 C 类 On the NHibernate 资源页面 http nhibernate info doc nh en index html toolsetguide s2在有用的工具下
axios POST 后在 Vue 组件中显示更新数据的问题

我陷入了一个问题并希望JavaScript 绝地武士可以帮助我指明正确的方向问题范围我将 Laravel 集合传递给我的 Vue 组件在组件内部我迭代集合并通过 axios 提交表单表单提交数据库中数据更新但是我不清楚如何在
textFieldDidEndEditing 触发“太晚了”

我有一个多视图流程用户正在输入数据并且我将其保存到模型类属性中的每一步 I use textFieldDidEndEditing检查输入是否有效如果有效则保存输入的数据在视图上我有一个 continueButtonClicked
java 中的不可变性

In 有效的Java http java sun com docs books effective Bloch 建议在使对象不可变时将所有字段设为 Final 有必要这样做吗仅仅不提供访问器方法不会使其变得不可变例如 class A p
Knockoutjs 清除组合框中选定的值

我有这个简单的 knockout js 应用程序 View
当 ADO.NET 查询无法检索请求的数据时应抛出什么异常？

为了向我们的应用程序添加一些参数验证和正确的使用语义我们尝试向 NET 应用程序添加正确的异常处理我的问题是当在 ADO NET 中抛出异常时如果特定查询没有返回数据或找不到数据我应该使用什么类型的异常伪代码阅读不要仔细检查
如何在 JSDOC 中记录对象数组

我有一个以对象数组作为参数的函数并且想使用 JSDOC 描述参数包括数组中对象的属性如下例所示 param Array filter array of filter objects param function doSomething
如何在VBA中查找两个字符之间的数字

例如我有这个字符串内容为 IRS150Sup2500Vup 也可能是 IRS250Sdown1250Vdown 我希望提取两个 S 之间的数字因此对于第一种情况它将是 150 而第二种情况它是 250 数字并不总是 3 位数字
.NET 中是否有与 DCOM 相对应的可行方案？

我知道 net 有 WCF 我相信它在代号为 Indigo 时被吹捧为 COM 的替代品但它实际上适合在 NET 应用程序中使用提供与 C DCOM 应用程序相同的功能吗客户端服务器系统上的 DCOM 应用程序可能会很痛苦但我认为
为什么 logback 以不同的顺序加载配置并忽略系统属性 (SBT)？

我一直在尝试解决我的日志记录情况如何使用 SBT 和 Scala 正确管理开发和生产中的 logback 配置 https stackoverflow com questions 27538717 how to properly mana
Material Design Lite 与 Angular JS 的渲染问题

我在使用 Material Design Lite 时遇到一些问题获取mdl io http getmdl io 我按照 getmdl io web 中显示的步骤安装它实际上我使用 Bower 但我总是遇到同样的问题当我更改 web
严重：子容器在启动期间失败 java.util.concurrent.ExecutionException：org.apache.catalina.LifecycleException：

我收到以下错误我搜索了很多论坛但没有帮助我解决这个问题那么有人可以调查一下并帮助我解决这个问题吗我没有使用maven SEVERE A child container failed during start java util c
Blazor：无法加载资源：服务器响应状态为 404 ()

我很难理解我的 blazor 应用程序的问题所在我有一个客户端 blazor 正在从 net 3 1 更新到 net 6 我已阅读有关从 3 1 迁移到 6 的说明但是当我尝试调试它时我的应用程序永远不会加载它抛出无法加载资源服
pyspark数据帧比较以根据关键字段查找列差异

我必须使用 pyspark 以性能最高效的方法比较两个数据帧以找出基于一个或多个关键字段的列差异因为我必须处理巨大的数据帧我已经构建了一个使用哈希匹配来比较两个数据帧的解决方案无需像这样的关键字段匹配data compare df

pyspark数据帧比较以根据关键字段查找列差异

pyspark数据帧比较以根据关键字段查找列差异 的相关文章

随机推荐

热门标签

pyspark数据帧比较以根据关键字段查找列差异的相关文章