使用 pyspark,我希望能够对 Spark 数据帧进行分组,对组进行排序,然后提供行号。所以
Group Date
A 2000
A 2002
A 2007
B 1999
B 2015
会成为
Group Date row_num
A 2000 0
A 2002 1
A 2007 2
B 1999 0
B 2015 1
使用窗函数:
from pyspark.sql.window import *
from pyspark.sql.functions import row_number
df.withColumn("row_num", row_number().over(Window.partitionBy("Group").orderBy("Date")))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)