有没有办法将新列附加到现有的镶木地板文件中?
我目前正在参加 Kaggle 比赛,我已将所有数据转换为镶木地板文件。
情况是这样的,我将 parquet 文件读入 pyspark DataFrame,进行了一些特征提取,并将新列附加到 DataFrame 中
pyspark.DataFrame.withColumn()。
之后,我想将新列保存在源镶木地板文件中。
我知道 Spark SQL 附带Parquet 架构演变 https://spark.apache.org/docs/1.4.0/sql-programming-guide.html#schema-merging,但示例仅显示了具有键值的情况。
parquet“附加”模式也不起作用。它仅将新行追加到镶木地板文件中。
是否可以将新列附加到现有镶木地板文件而不是再次生成整个表?
或者我必须生成一个单独的新镶木地板文件并在运行时加入它们。
在 parquet 中,您不修改文件,而是读取它们、修改它们并将它们写回,您不能只更改读取和写入完整文件所需的列。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)