我有一个包含多列的 Spark 数据框。我想找出并删除列中具有重复值的行(其他列可能不同)。
我尝试使用dropDuplicates(col_name)
但它只会删除重复的条目,但仍会在数据框中保留一条记录。我需要的是删除最初包含重复条目的所有条目。
我正在使用 Spark 1.6 和 Scala 2.10。
我会为此使用窗口函数。假设您想删除重复项id
rows :
import org.apache.spark.sql.expressions.Window
df
.withColumn("cnt", count("*").over(Window.partitionBy($"id")))
.where($"cnt"===1).drop($"cnt")
.show()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)