datacompaction

使用 pyspark 压缩后目录大小增加

我使用 pyspark 编写了一个文件压缩器它的工作方式是将目录的所有内容读取到 Spark 数据帧中然后执行重新分区操作以减少文件数量所需文件的数量由以下公式计算 directory size Wanted file size 我面

apachespark Hadoop PySpark fileformat datacompaction