我们已经生成了一个parquet
文件输入Dask
(Python)并与Drill
(R 使用Sergeant
包)。我们注意到几个问题:
- 的格式
Dask
(i.e. fastparquet
) has a _metadata
and a _common_metadata
文件,同时parquet
文件输入R \ Drill
没有这些文件并且有parquet.crc
文件代替(可以删除)。这些有什么区别parquet
实施?
(仅回答1),请单独发布问题以便于回答)
_metadata
and _common_metadata
是 Parquet 数据集不需要的辅助文件,Spark/Dask/Hive/... 使用这些文件来推断数据集的所有 Parquet 文件的元数据,而无需读取所有文件的页脚。与此相反,Apache Drill 在每个文件夹中(按需)生成一个类似的文件,其中包含所有 Parquet 文件的所有页脚。仅在数据集的第一次查询时读取所有文件,进一步的查询将仅读取缓存所有页脚的文件。
使用工具_metadata
and _common_metadata
应该能够利用它们来获得更快的执行时间,但不依赖它们进行操作。如果它们不存在,则查询引擎只需要读取所有页脚即可。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)