Spark 从 DataFrame 中删除重复行 [duplicate]

2024-02-13

假设我有一个像这样的 DataFrame：

val json = sc.parallelize(Seq("""{"a":1, "b":2, "c":22, "d":34}""","""{"a":3, "b":9, "c":22, "d":12}""","""{"a":1, "b":4, "c":23, "d":12}"""))
val df = sqlContext.read.json(json)

我想根据“b”列的值删除“a”列的重复行。即，如果“a”列有重复的行，我想保留“b”列具有较大值的行。对于上面的例子，处理后我只需要

{“a”：3，“b”：9，“c”：22，“d”：12}

and

{“a”：1，“b”：4，“c”：23，“d”：12}

Spark DataFrame dropDuplicates API 似乎不支持这一点。通过 RDD 方法，我可以做map().reduceByKey()，但是有什么 DataFrame 具体操作可以做到这一点呢？

感谢一些帮助，谢谢。

您可以使用sparksql中的窗口函数来实现这一点。

df.registerTempTable("x")
sqlContext.sql("SELECT a, b,c,d  FROM( SELECT *, ROW_NUMBER()OVER(PARTITION BY a ORDER BY b DESC) rn FROM x) y WHERE rn = 1").collect

这将实现您所需要的。阅读有关窗口函数支持的更多信息https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

Spark 从 DataFrame 中删除重复行 [duplicate] 的相关文章

如何在 sbt 控制台中加载 scala 文件？ [复制]

这个问题在这里已经有答案了可能的重复将 Scala 文件加载到解释器中以使用函数 https stackoverflow com questions 7383436 load scala file into interpreter to
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
从另一列的子字符串创建列

我有一个 Pandas 数据框对象我想从现有列的子字符串创建新列我的数据如下所示 Date variable want1 want2 want3 0 02 01 08 Australia Sydney A Australia Sydne
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
XML 创建 - 错误：带有替代方案的重载方法构造函数 UnprefixedAttribute

scala gt val count 7 count Int 7 将其放入 XML 属性中会出现错误 scala gt val x
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
Pandas 数据帧中任意两连续行之间差异的平均值

我有一个数据框 name date quantity A 2016 12 02 20 A 2016 12 04 5 A 2016 11 30 10 B 2016 11 30 10 我想做的是计算对于任何一对连续的名称的日期按时间顺序连续
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun

随机推荐

如何为类定义 __str__ 方法？

在 Python 中 objectclass 充当所有新式类的根超类至少默认情况下应用str and repr到任何子类的类实例 object产生相同的结果 gt gt gt class spam object pass gt g
Javascript 监听两个事件并触发一个函数

如何侦听两个不同的事件并且仅当检测到所有两个事件时才触发函数这是哪里Promises http www html5rocks com en tutorials es6 promises excel var prom1 new Promi
如何在Windows中通过端口查找PID并使用java杀死找到的任务

我需要通过进程端口在java代码中杀死进程我可以在 cmd 中手动执行此操作例如 C gt netstat a n o findstr 6543 TCP 0 0 0 0 6543 0 0 0 0 0 LISTENING 1145 TCP
PHP中获取某个类的所有实例

我想获取某个类的对象的所有实例例如 class Foo a new Foo b new Foo instances get instances of class Foo instances应该是array a b or array b a
单击后如何禁用 html 按钮而不是提交按钮

你好我有一个 html 按钮当你按下它时它应该会给你商店到你所在位置的距离所以当你按下它时它们现在出现问题是因为它还处于早期阶段每次按下按钮时都会打印信息我现在只想知道如何在按下一次时禁用它然后在按下另一个按钮时重新激活它
尝试从 Cypress 中的元素获取属性时出错

我有这个 HTML 元素
通过 gcc-6 在 OSX Sierra 上安装时，继续出现“FATAL:/opt/local/bin/../libexec/as/x86_64/as: I don't Understanding 'm' flag!”错误

环境信息操作系统 macOS 10 12 2 16C68 编译器海湾合作委员会 6 重现步骤我已经安装了 gcc 6 并根据需要修改了 config mk 到 export CC gcc 6 export CXX g 6 但一直出现这
Zend Form Element View 脚本的推荐路径

我已经开始将表单元素视图脚本放在 application views scripts form 下并能够通过 form scriptname phtml 引用它们但现在我需要制作一个表单控制器我意识到这是一个短视的解决方案我见过
如何从 WPF KeyDown 事件中获取普通字符？

我想要传递的 ASCII 字符e Key来自 WPF 的属性KeyDown event 您可以使用 TextInput 事件而不是 KeyDown 事件吗 TextCompositionEventArgs 类允许您直接检索通过 e text
如何在 C# 中计算“五的中位数”？

五的中位数有时被用作算法设计的练习并且众所周知是可计算的仅使用 6 次比较实施这个的最好方法是什么使用 6 次比较得出 5 的中位数在 C 中我所有的尝试似乎都导致了尴尬的代码我需要漂亮且可读的代码同时仍然只使用 6 次比较
带 order by 和 limit 的 SQL Union All (Postgresql)

在以下查询中我收到语法错误 SELECT
C++ 对象初始化（堆栈）

今天我看到一个我不熟悉的类的 C 初始化 CPrice price CPrice 初始化通常应该是这样的 CPrice price 我猜第一个应该抛出错误或其他东西这里会发生什么我猜想该变量位于堆栈上因为它没有用new 我使用 Vis
Core Data 管理对象上下文设计建议

我们正在开发一个企业级应用程序它将使用核心数据存储数以万计的对象但我们在多个方面都遇到了问题我们的应用程序有几个独立的系统可以在需要时对数据进行操作这些系统包括项目的发现项目的加载同步和UI显示如果我们正确地设计我们的软件
打开 SQL Server 实例的端口

他们最近封锁了我们 SQL Server 上的所有端口服务器有不同的实例打开端口 1433 不起作用我们需要开放什么才能允许访问SQL Server 在安装服务器实例的计算机上启动 SQL Server 配置管理器实用程序打开树形
更改 R 中的绘图标签大小，cex 不起作用

我正在 R 中制作一个非常简单的绘图并且希望更改 y 轴年份上的字体大小我已经用了所有的cex 命令可以改变一切除了这些年这是我的矩阵输入 2010 2011 CC 0 5550 0 480 P 3 6700 3 865 P
如何避免重复代码？

我对编程还很陌生我注意到我在重复代码 protected void FillTradeSetups DBUtil DB new DBUtil DataTable dtTradeSetups dtTradeSetups DB GetTrad
仅获取朋友的total_count - facebook-graph-api

me fields friends获取 friends summary total count 72 我只是想total count 但它似乎不是我可以放入查询中的有效子字段 me fields friends summary or me
@code 在 Google Closure 中意味着什么？

一个例子在这里 An implementation of code goog events Listenable with full W3C EventTarget like support capture bubble mechanism
如何从 Hibernate 调用带有返回参数的 Oracle 函数？

我的问题很像通过 Hibernate 获取 PL SQL 函数的返回值 https stackoverflow com questions 1068974 getting the return value of a pl sql funct
Spark 从 DataFrame 中删除重复行 [duplicate]

这个问题在这里已经有答案了假设我有一个像这样的 DataFrame val json sc parallelize Seq a 1 b 2 c 22 d 34 a 3 b 9 c 22 d 12 a 1 b 4 c 23 d 12 val

Spark 从 DataFrame 中删除重复行 [duplicate]

Spark 从 DataFrame 中删除重复行 [duplicate] 的相关文章

随机推荐

热门标签