仅保留 DataFrame 中有关某些字段的重复项

2024-04-20

我有这个火花数据框：

+---+-----+------+----+------------+------------+
| ID|  ID2|Number|Name|Opening_Hour|Closing_Hour|
+---+-----+------+----+------------+------------+
|ALT|  QWA|     6|null|    08:59:00|    23:30:00|
|ALT|AUTRE|     2|null|    08:58:00|    23:29:00|
|TDR|  QWA|     3|null|    08:57:00|    23:28:00|
|ALT| TEST|     4|null|    08:56:00|    23:27:00|
|ALT|  QWA|     6|null|    08:55:00|    23:26:00|
|ALT|  QWA|     2|null|    08:54:00|    23:25:00|
|ALT|  QWA|     2|null|    08:53:00|    23:24:00|
+---+-----+------+----+------------+------------+

我想获得一个新的数据框，其中仅包含 3 个字段中不唯一的行"ID", "ID2" and "Number".

这意味着我想要这个 DataFrame：

+---+-----+------+----+------------+------------+
| ID|  ID2|Number|Name|Opening_Hour|Closing_Hour|
+---+-----+------+----+------------+------------+
|ALT|  QWA|     6|null|    08:59:00|    23:30:00|
|ALT|  QWA|     2|null|    08:53:00|    23:24:00|
+---+-----+------+----+------------+------------+

或者可能是一个包含所有重复项的数据框：

+---+-----+------+----+------------+------------+
| ID|  ID2|Number|Name|Opening_Hour|Closing_Hour|
+---+-----+------+----+------------+------------+
|ALT|  QWA|     6|null|    08:59:00|    23:30:00|
|ALT|  QWA|     6|null|    08:55:00|    23:26:00|
|ALT|  QWA|     2|null|    08:54:00|    23:25:00|
|ALT|  QWA|     2|null|    08:53:00|    23:24:00|
+---+-----+------+----+------------+------------+

一种方法是使用pyspark.sql.Window http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Window添加一列来计算每行的重复项数("ID", "ID2", "Number")组合。然后仅选择重复项数大于 1 的行。

import pyspark.sql.functions as f
from pyspark.sql import Window

w = Window.partitionBy('ID', 'ID2', 'Number')
df.select('*', f.count('ID').over(w).alias('dupeCount'))\
    .where('dupeCount > 1')\
    .drop('dupeCount')\
    .show()
#+---+---+------+----+------------+------------+
#| ID|ID2|Number|Name|Opening_Hour|Closing_Hour|
#+---+---+------+----+------------+------------+
#|ALT|QWA|     2|null|    08:54:00|    23:25:00|
#|ALT|QWA|     2|null|    08:53:00|    23:24:00|
#|ALT|QWA|     6|null|    08:59:00|    23:30:00|
#|ALT|QWA|     6|null|    08:55:00|    23:26:00|
#+---+---+------+----+------------+------------+

I used pyspark.sql.functions.count() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.count计算每组中的项目数。这将返回一个包含所有重复项的 DataFrame（您显示的第二个输出）。

如果您只想获得一行("ID", "ID2", "Number")组合，您可以使用另一个窗口来对行进行排序。

例如，下面我添加另一列row_number http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.row_number并仅选择重复计数大于 1 且行号等于 1 的行。这保证每个分组一行。

w2 = Window.partitionBy('ID', 'ID2', 'Number').orderBy('ID', 'ID2', 'Number')
df.select(
        '*',
        f.count('ID').over(w).alias('dupeCount'),
        f.row_number().over(w2).alias('rowNum')
    )\
    .where('(dupeCount > 1) AND (rowNum = 1)')\
    .drop('dupeCount', 'rowNum')\
    .show()
#+---+---+------+----+------------+------------+
#| ID|ID2|Number|Name|Opening_Hour|Closing_Hour|
#+---+---+------+----+------------+------------+
#|ALT|QWA|     2|null|    08:54:00|    23:25:00|
#|ALT|QWA|     6|null|    08:59:00|    23:30:00|
#+---+---+------+----+------------+------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

仅保留 DataFrame 中有关某些字段的重复项的相关文章

Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
从 aws Glue 脚本调用存储过程

ETL 作业完成后在 AWS Glue 脚本中调用存储过程的最佳方式是什么我正在使用 PySpark 从 S3 获取数据并将其存储在临时表中在这个过程之后需要调用一个存储过程该存储过程将数据从临时表加载到相应的 MDS 表中如果
检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧我想检查一列的值是否存在于另一个数据帧的列中我只看到了如何过滤存在的值的解决方案像这样 https stackoverflow com questions 41775281 filtering a
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
Spark：连接两个相同分区的数据帧时防止洗牌/交换

我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌并让所有连接发生而无需在 Spark 执行器之间洗牌交换数据为此我创建了另一个名为visitor parti
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
选择 PySpark 数据框中的列

我正在寻找一种在 PySpark 中选择数据帧列的方法对于第一行我知道我可以使用df first 但不确定列是否存在没有列名我有 5 列想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL

随机推荐

在不阻塞的情况下“通知”处理器的正确方法是什么？

假设我有很多东西我必须对所有这些东西进行一些操作如果一个元素的操作失败我想停止整个阵列的工作这项工作分布在多个处理器上我想实现这一目标同时将发送接收的消息数量保持在最低限度另外如果没有必要我不想阻止处理器我该如何使用
Rails 6+、zeitwerk 自动加载器和命名空间常量

Rails 6 默认自动加载器是 zeitwerk 这似乎比以前的方法有了很大的改进然而 zeitwork 遵循 Rails 项目的惯例即任何内容app 是自动加载的不需要命名空间这非常适合app models user rb因为你
VM1550 installHook.js:1860 在控制台中记录为双行

我正在使用反应应用程序并构建一个简单的应用程序当我使用 console log 方法在控制台上记录某些内容时控制台上会出现第二条日志它似乎来自第 1860 行的文件名 installHook js 我已经尝试过寻找它但我没有找到我
如何在 HP 触摸板上使用 webOS 命令行拍照？

在 webos 上我正在运行 openssh 并且想使用命令行脚本拍照我怀疑这将包括一些 luna send 命令或者 gst launch 但我对文档没有任何运气 webos 没有任何预期的捕获工具但我可以访问 dev video
在邮件中附加两个文件

我想创建一个 VBA 脚本将两个文件附加到邮件中这段代码让我可以附加一个文件 Sub openWord Dim OutApp As Object Dim OutMail As Object Set OutApp CreateObject
Android Facebook 应用程序注销问题

我的应用程序使用 Facebook SDK 来发布状态更新另外还有注销功能我可以在应用程序第一次运行时登录我可以在 Facebook 上成功发布状态消息但一旦我注销后续运行并尝试更新状态时我会遇到来自 facebook 的错误
如何编写一个函数来测试链接列表是否已排序

我查看了其他帖子但没有找到适合我的查询的很好的解决方案我不想对链接列表进行实际排序我想看看它是否已排序我有一个 C 中的链表问题我被要求编写一个给定链表定义的函数来查看它是否已排序实现函数 isSorted 如果链表中的值按升序
如何在WebKit中调用参数化的javascript函数？

我正在尝试将 2 个参数传递给 javascript 函数这段代码webview loadUrl javascript function to call 没有参数可以正常工作但我无法使用参数这是 javascript 连接点 func
纯文本压缩算法的现状如何？

为了纪念哈特奖 http prize hutter1 net 文本压缩的顶级算法以及每种算法的快速描述是什么注意这个问题的目的是获得压缩算法的描述而不是压缩程序的描述突破边界的压缩器结合了疯狂结果的算法常见的算法包括 The
没有名为 EntityManager 的持久性提供程序

我有我的persistence xml使用相同的名称TopLink在下面META INF目录然后我的代码使用以下方式调用它 EntityManagerFactory emfdb Persistence createEntityManag
Next js 子组件的父路由组件

让我们想象一下我们有admin有几个页面的模块定制 settings account 这些页面中的每一个都应该有一些通用的布局 sidebar 对于标准 React 应用程序我将做下一步来实现应用程序的这一部分我会创建父路线 admin
防止任务窗格在保存期间关闭（异步）

我们使用 OfficeJs REST API 进行加载项开发要使用此 API 需要一个 accesstoken 我们通过调用来请求该 accesstokenOffice mailbox getCallbackTokenAsync isRe
如何在 Python 中对两个列表进行异或？ [复制]

这个问题在这里已经有答案了我有两个列表例如 a hello world b hello world im steve 如果我想创建第三个列表其中仅包含两个列表中都不包含的元素 c im steve 如果元素的顺序很重要我该怎么做我
添加连续颜色渐变图例条以进行绘图

我正在使用以下数据和代码来绘制barplot ddf structure list VAR structure 1 9 Label c aaa bbb ccc ddd eee fff ggg hhh iii class factor VAL
无法将字符串转换为 ZonedDateTime：DateTimeParseException

我尝试将字符串从 JSON 转换为 ZonedDateTime 就像 static String getWatchTime JSONObject aJson JSONObject bJson long difference 0 try St
如何正确使用通过转发引用传递的可调用对象？

我习惯将 lambda 函数和其他可调用函数传递给模板函数并使用它们如下所示 template
Xcode 8 beta 4：构建失败，并显示“以下二进制文件使用不兼容的 Swift 版本：”错误

与新Xcode 8 beta 4我们开始遇到以下错误CopySwiftLibs构建阶段 Effective srcDirs
什么是 EF 默认 ID 命名约定 Code First？

我正在使用 EF 代码优先方法我开始制作映射文件我来自 nihbernate 背景但发现你真的不需要它们除非你需要做一些更改我想知道我的 ID 的命名约定将使用什么那将会Product Id or ProductId Edit
当前上下文中不存在名称“数据库”？

当我尝试使用 WebMatrix 启动我的网站时收到此错误我有一个可以调用的 cs 文件var db Database Open dbase 我的项目中有一个名为 dbase 的数据库我没有 web config 文件也没有使用 We
仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29

仅保留 DataFrame 中有关某些字段的重复项

仅保留 DataFrame 中有关某些字段的重复项 的相关文章

随机推荐

热门标签

仅保留 DataFrame 中有关某些字段的重复项的相关文章