这可能是一个愚蠢的问题,源于我的无知。我已经在 PySpark 上工作了几个星期,并没有太多的编程经验。
我的理解是,在 Spark 中,RDD、数据帧和数据集都是不可变的——我再次理解,这意味着您无法更改数据。如果是这样,为什么我们能够使用编辑 Dataframe 的现有列withColumn()
?
根据 Spark 架构,DataFrame 构建在本质上不可变的 RDD 之上,因此 Dataframe 本质上也是不可变的。
关于 withColumn 或任何其他与此相关的操作,当您在 DataFrame 上应用此类操作时,它将生成一个新的数据框,而不是更新现有的数据框。
但是,当您使用动态类型语言 python 时,您会覆盖先前引用的值。因此,当您执行以下语句时
df = df.withColumn()
它将生成另一个数据帧并将其分配给引用“df
".
为了验证相同,您可以使用id()
rdd 的方法来获取数据帧的唯一标识符。
df.rdd.id()
将为您的数据框提供唯一的标识符。
我希望上述解释有所帮助。
Regards,
Neeraj
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)