我有一个非常大的 pyspark 数据框。所以我想对其子集进行预处理,然后将它们存储到hdfs。后来我想把它们全部读完并合并在一起。谢谢。
-
将 DataFrame 写入 HDFS (Spark 1.6)。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
一些格式选项是csv
, parquet
, json
etc.
format 方法接受参数,例如parquet
, csv
, json
etc.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)