我无法找到允许使用 Python 编写 Parquet 文件的库。如果我可以结合使用 Snappy 或类似的压缩机制,那就加分了。
到目前为止,我发现的唯一方法是将 Spark 与pyspark.sql.DataFrame
镶木地板支持。
我有一些脚本需要编写不是 Spark 作业的 Parquet 文件。有没有什么方法可以在Python中编写Parquet文件而不涉及pyspark.sql
?
更新(2017 年 3 月):目前有2图书馆能够writing镶木地板文件:
- 快速镶木地板 https://github.com/dask/fastparquet
- pyarrow http://wesmckinney.com/blog/python-parquet-update/
它们似乎都仍在大力开发中,并且带有许多免责声明(例如不支持嵌套数据),因此您必须检查它们是否支持您需要的所有内容。
旧答案:
截至 2.2016,似乎没有仅 Python 的库能够writing镶木地板文件。
如果你只需要read镶木地板文件有蟒蛇镶木地板 https://github.com/jcrobak/parquet-python.
作为解决方法,您将不得不依赖其他一些过程,例如pyspark.sql
(它使用 Py4J 并在 JVM 上运行,因此不能直接从普通 CPython 程序中使用)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)