假设我有一个像这样的 DataFrame:
val json = sc.parallelize(Seq("""{"a":1, "b":2, "c":22, "d":34}""","""{"a":3, "b":9, "c":22, "d":12}""","""{"a":1, "b":4, "c":23, "d":12}"""))
val df = sqlContext.read.json(json)
我想根据“b”列的值删除“a”列的重复行。即,如果“a”列有重复的行,我想保留“b”列具有较大值的行。对于上面的例子,处理后我只需要
{“a”:3,“b”:9,“c”:22,“d”:12}
and
{“a”:1,“b”:4,“c”:23,“d”:12}
Spark DataFrame dropDuplicates API 似乎不支持这一点。通过 RDD 方法,我可以做map().reduceByKey()
,但是有什么 DataFrame 具体操作可以做到这一点呢?
感谢一些帮助,谢谢。
您可以使用sparksql中的窗口函数来实现这一点。
df.registerTempTable("x")
sqlContext.sql("SELECT a, b,c,d FROM( SELECT *, ROW_NUMBER()OVER(PARTITION BY a ORDER BY b DESC) rn FROM x) y WHERE rn = 1").collect
这将实现您所需要的。
阅读有关窗口函数支持的更多信息https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)