如何强制特定数据集以非增量方式构建而不更改转换存储库中的语义版本?
有关我们具体用例的详细信息:
我们有大约 50 个数据集,由单个增量 Python 通过手动注册和 for 循环定义。此转换的输入可以是 100 到 10000 个小 gzip 文件,因此当较大的数据集运行时,它最终会将所有这些文件划分为少数大小合适的 parquet 文件,这对于我们的下游作业来说是完美的。但是,在该作业增量运行数月后(文件每小时到达),输出中还会出现大量小 parquet 文件。我们希望能够强制构建此单个数据集的快照,而不必更改转换的语义版本,否则会触发所有 50 个数据集的快照构建。这可能吗?
我了解一个潜在的解决方法可能是在转换本身中定义“最大输出文件”,读取现有输出中的当前文件数,并在当前超过最大值时强制创建快照。然而,由于该管道对时间敏感(需要在一个小时内运行),这会给管道带来一定程度的不可预测性,因为快照构建需要更长的时间。我们希望能够将这些完整快照构建设置为每月周末运行一次。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)