Spark 从 DataFrame 中删除重复行 [duplicate]

2024-02-13

假设我有一个像这样的 DataFrame:

val json = sc.parallelize(Seq("""{"a":1, "b":2, "c":22, "d":34}""","""{"a":3, "b":9, "c":22, "d":12}""","""{"a":1, "b":4, "c":23, "d":12}"""))
val df = sqlContext.read.json(json)

我想根据“b”列的值删除“a”列的重复行。即,如果“a”列有重复的行,我想保留“b”列具有较大值的行。对于上面的例子,处理后我只需要

{“a”:3,“b”:9,“c”:22,“d”:12}

and

{“a”:1,“b”:4,“c”:23,“d”:12}

Spark DataFrame dropDuplicates API 似乎不支持这一点。通过 RDD 方法,我可以做map().reduceByKey(),但是有什么 DataFrame 具体操作可以做到这一点呢?

感谢一些帮助,谢谢。


您可以使用sparksql中的窗口函数来实现这一点。

df.registerTempTable("x")
sqlContext.sql("SELECT a, b,c,d  FROM( SELECT *, ROW_NUMBER()OVER(PARTITION BY a ORDER BY b DESC) rn FROM x) y WHERE rn = 1").collect

这将实现您所需要的。 阅读有关窗口函数支持的更多信息https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 从 DataFrame 中删除重复行 [duplicate] 的相关文章

随机推荐