pandas df.to_parquet 写入多个较小的文件

2024-05-28

是否可以使用 Pandas 的DataFrame.to_parquet将写入拆分为多个大约所需大小的文件的功能?

我有一个非常大的 DataFrame (100M x 100),并且正在使用df.to_parquet('data.snappy', engine='pyarrow', compression='snappy')写入文件,但这会产生大约 4GB 的文件。相反,我希望将其分成许多约 100MB 的文件。


我最终使用了 Dask:

import dask.dataframe as da

ddf = da.from_pandas(df, chunksize=5000000)
save_dir = '/path/to/save/'
ddf.to_parquet(save_dir)

这会保存到内部的多个镶木地板文件中save_dir,其中每个子 DataFrame 的行数是chunksize。根据您的数据类型和列数,您可以调整此设置以使文件达到所需的大小。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pandas df.to_parquet 写入多个较小的文件 的相关文章

随机推荐