您有多种选择。在下面的代码中,我假设您想用镶木地板编写,但当然您可以更改它。
(1) df.repartition(numPartitions, *cols).write.partitionBy(*cols).parquet(writePath)
这将首先使用基于哈希的分区来确保来自 COL 的有限数量的值进入每个分区。取决于您选择的值numPartitions
,某些分区可能是空的,而其他分区可能挤满了值——对于任何不确定原因的人,请阅读this https://stackoverflow.com/a/42780452/189336。然后,当你打电话时partitionBy
在 DataFrameWriter 上,每个分区中的每个唯一值将放置在其自己的单独文件中。
警告:这种方法可能会导致分区大小和任务执行时间不平衡。当列中的值与许多行关联时(例如,城市列 - 纽约市的文件可能有很多行),而其他值数量较少(例如,小镇的值),就会发生这种情况。
(2) df.sort(sortCols).write.parquet(writePath)
当您希望 (1) 写入的文件大小几乎相等 (2) 精确控制写入的文件数量时,此选项非常有用。这种方法首先对数据进行全局排序,然后找到将数据分解为k
大小均匀的分区,其中k
在spark配置中指定spark.sql.shuffle.partitions
。这意味着具有相同排序键值的所有值都彼此相邻,但有时它们会跨越一个分割,并位于不同的文件中。如果您的用例要求具有相同键的所有行位于同一分区中,则不要使用此方法。
有两个额外的好处:(1) 通过对数据进行排序,通常可以减小其在磁盘上的大小(例如,按 user_id 对所有事件进行排序,然后按时间排序将导致列值出现大量重复,这有助于压缩)和 (2 )如果您写入支持它的文件格式(例如 Parquet),则后续读取器可以通过使用谓词下推以最佳方式读取数据,因为 parquet 编写器将在元数据中写入每列的 MAX 和 MIN 值,从而允许如果查询指定的值超出分区的(最小,最大)范围,则读取器会跳过行。
请注意,Spark 中的排序比仅仅重新分区更昂贵,并且需要额外的阶段。在幕后,Spark 将首先确定一个阶段中的拆分,然后将数据混入另一个阶段中的这些拆分中。
(3) df.rdd.partitionBy(customPartitioner).toDF().write.parquet(writePath)
如果您在 Scala 上使用 Spark,那么您可以编写一个客户分区器,它可以克服基于哈希的分区器的烦人问题。不幸的是,pySpark 中没有这个选项。如果你真的想在 pySpark 中编写自定义分区器,我发现这是可能的,尽管有点尴尬,通过使用rdd.repartitionAndSortWithinPartitions
:
df.rdd \
.keyBy(sort_key_function) \ # Convert to key-value pairs
.repartitionAndSortWithinPartitions(numPartitions=N_WRITE_PARTITIONS,
partitionFunc=part_func) \
.values() # get rid of keys \
.toDF().write.parquet(writePath)
也许其他人知道在 pyspark 中的数据帧上使用自定义分区器的更简单方法?