根据 RDD/Spark DataFrame 中的特定列从行中删除重复项

2024-01-31

假设我有一个相当大的数据集，其形式如下：

data = sc.parallelize([('Foo', 41, 'US', 3),
                       ('Foo', 39, 'UK', 1),
                       ('Bar', 57, 'CA', 2),
                       ('Bar', 72, 'CA', 2),
                       ('Baz', 22, 'US', 6),
                       ('Baz', 36, 'US', 6)])

我想仅根据第一列、第三列和第四列的值删除重复行。

删除完全重复的行很简单：

data = data.distinct()

第 5 行或第 6 行将被删除。

但是如何仅根据第 1、3 和 4 列删除重复行呢？ IE。删除其中之一：

('Baz', 22, 'US', 6)
('Baz', 36, 'US', 6)

在 Python 中，这可以通过指定列来完成.drop_duplicates()。如何在 Spark/PySpark 中实现相同的目标？

PySpark does包括一个dropDuplicates() https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.DataFrame.dropDuplicates.html方法，在1.4中介绍过。

>>> from pyspark.sql import Row
>>> df = sc.parallelize([ \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=10, height=80)]).toDF()
>>> df.dropDuplicates().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
|  5|    80|Alice|
| 10|    80|Alice|
+---+------+-----+

>>> df.dropDuplicates(['name', 'height']).show()
+---+------+-----+
|age|height| name|
+---+------+-----+
|  5|    80|Alice|
+---+------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

PySpark

根据 RDD/Spark DataFrame 中的特定列从行中删除重复项的相关文章

Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise

随机推荐

iOS 中的 Crashlytics 无法继续执行 Fabric 应用程序中的“构建您的项目”

我正在为我的 iOS 应用程序安装 Crashlytics 我通过他们的网站链接下载了它并完成了集成框架添加运行脚本等的所有步骤我遇到了问题因此我删除了框架并决定重新开始并尝试全新安装但是 Fabric 应用程序更新到了较新的版本
解析推送通知：发生另一个错误

自从昨晚用 Parse 测试以来我遇到了一个奇怪的问题我能够很好地发送推送通知但现在当我通过在线解析推送通知工具发送推送通知时我的推送通知都没有被发送 Edited好吧看来这只是本地环境的问题当我测试推送通知到通过试飞安装的测试
拥有.apk可以提取其源代码。 Android 应用程序安全吗？ [复制]

这个问题在这里已经有答案了我开发 Android 应用程序其中一些代码非常私密和机密我将加密算法放入我的代码中以提高安全性但最近我读到当人们拥有 apk 文件时他们可以 100 正确地提取 java 源代码Source http
为什么我的 Trie 查找比标准 F# Map 的查找慢？

所以我只是从 OCaml 移植了 Trie 不幸的是就 tryFind 而言它的运行速度比标准 Map 慢我不明白这一点特里树似乎应该更快 F 的代码库是否以某种特殊方式构建以使它们比用户通常部署的代码更快这是代码
XSD 指定在 XML 中只能使用一次的属性

拥有一个具有多个属性的复杂类型
C++ 复合模板类工厂

是否可以制作一个复合模板类工厂而无需手动指定所有组合我的意思是如果我有这些课程 class CompositeBase template lt typename C1 typename C2 typename C3 gt class Co
log4net的线程安全

似乎有一些关于log4net是否线程安全的讨论共识是框架是线程安全的但appender不是需要正确使用才能实现线程安全有人可以对此进行一些说明并可能给出以线程安全方式使用 RollingFileAppender 的示例吗是否需要
如何将多个属性绑定连接成一个

我有一个 OData 源它提供的结果行包含first name last name 我想将它们显示在一个表中其中有一列名为全名我正在尝试使用 JSView 它似乎比 XML 更简洁我可以像这样进行 1 1 绑定 var templa
在任何情况下，直接返回结构是一种好的做法吗？

IMO 所有直接返回结构的代码都可以修改为返回指向结构的指针什么时候直接返回结构是一种好的做法怎么修改返回指向函数内结构体静态实例的指针从而使函数不可重入或者通过返回一个指向堆分配结构的指针调用者必须确保释放该结构并正确执行此操
错误：在ExternalContext 中未找到/login.xhtml 作为资源

我将 JBoss 7 1 与 JSF 2 1 Prime Faces 一起使用并不断遇到标题中列出的错误我已经尝试了这里提出的许多建议但最终都出现了相同的错误文件结构为 WEB INF faces login xhtml 我在 we
如何限制Stream按顺序运行，并防止它并行运行？

我有一个方法返回从自定义分割器生成的流分离器并不安全由于分离器并不安全并且它保持状态因此我想防止它并行运行有没有办法prevent并行运行返回的流我无法找到任何执行此操作的文档或示例我确实找到了一个sequential 方法上
可变参数宏：无法通过“...”传递非平凡可复制类型的对象

我正在尝试为日志机制编写一个宏我写了一个可变参数宏但它不起作用std string 代码如下所示 include
如何使用 Send Message() 而不是 SendInput() 来模拟硬件按键按下？

我一直在尝试对阻止 Windows GDI API 可能通过 API 挂钩的游戏进行屏幕捕获因此我无法使用旧的BitBlt 不幸的是用于捕获屏幕每当我打电话BitBlt 它失败并显示错误代码 126 ERROR MOD NOT FO
solr 中的建议组件错误

我正在使用 solr 自动完成功能我正在使用 solr 4 50 来构建我的应用程序并且我正在关注this http lucene 472066 n3 nabble com auto completion search with sol
如何检查 Node.js `Buffer` 是否包含有效的 UTF-8？

我有一个Buffer https nodejs org api buffer html对象我想检查所有内容是否都是有效的 UTF 8 理想情况下我想得到一个string也包含所述解码的 UTF 8 文本 I tried Buffer t
Microsoft MSAL - 获取多个范围的令牌

在 Azure Active Directory 中我有一个应用程序需要在以下范围内使用 MicrosoftGraphAPI 和 SharePointAPI GraphAPI scopes https graph microsoft co
龙目岛和 AspectJ

我正在尝试将 Lombok 与 AspectJ 和 Maven 结合使用所以有什么问题当我使用 AspectJ Maven 插件时 www mojohaus org aspectj maven plugin http www mojoh
安装 pip 包时 pip install 错误退出状态 1

我在尝试安装时遇到问题pyresparserpython 库该问题似乎与 Spacy 库有关我该如何解决这个问题并安装成功我是Python菜鸟 C Users User gt pip install pyresparser Colle
curl -X POST -d @mapping.json + 未创建映射

我正在学习弹性搜索我已在 mapping json 中指定了映射其内容是 book index enabled true id index not analyzed store yes properties author type st
根据 RDD/Spark DataFrame 中的特定列从行中删除重复项

假设我有一个相当大的数据集其形式如下 data sc parallelize Foo 41 US 3 Foo 39 UK 1 Bar 57 CA 2 Bar 72 CA 2 Baz 22 US 6 Baz 36 US 6 我想仅根据第一列

根据 RDD/Spark DataFrame 中的特定列从行中删除重复项

根据 RDD/Spark DataFrame 中的特定列从行中删除重复项 的相关文章

随机推荐

热门标签

根据 RDD/Spark DataFrame 中的特定列从行中删除重复项的相关文章