是否可以压缩已保存在 Google 云存储中的文件?
这些文件由 Google 数据流代码创建和填充。数据流无法写入压缩文件,但我的要求是将其保存为压缩格式。
标准 TextIO.Sink 不支持写入压缩文件,因为从压缩文件中读取的可扩展性较差 - 如果不先解压缩,则文件无法在多个工作程序之间拆分。
如果您想这样做(并且不担心潜在的可扩展性限制),您可以考虑编写一个基于文件的自定义接收器来压缩文件。你可以看看TextIO https://github.com/GoogleCloudPlatform/DataflowJavaSDK/blob/master/sdk/src/main/java/com/google/cloud/dataflow/sdk/io/TextIO.java#L995例如,还可以查看文档如何编写基于文件的接收器 https://cloud.google.com/dataflow/model/custom-io-java#creating-a-custom-sink.
关键变化来自TextIO
将修改TextWriteOperation
(这延伸了FileWriteOperation
)以支持压缩文件。
另外,请考虑提交功能请求云数据流 https://github.com/GoogleCloudPlatform/DataflowJavaSDK/issues and/or 阿帕奇光束 https://issues.apache.org/jira/browse/BEAM/.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)