我有一个程序(gawk)将数据流输出到它的STDOUT。
处理的数据实际上有 10 GB。
我不想将其保留在单个文件中,而是将其分成多个块,并可能在保存之前对每个文件应用一些额外的处理(如压缩)。
我的数据是一系列记录,我不想拆分将记录减半。
每条记录都匹配以下正则表达式:
^\{index.+?\}\}\n\{.+?\}$
或者为了简单起见,可以假设两行(首先是不均匀的,然后是从流的开头编号的)总是创建一条记录。
Can I:
- 使用一些标准的linux命令通过定义块的首选大小来分割STDIN?不需要精确给定记录变量大小不能保证它。或者,如果定义的话,仅记录数。按尺寸是不可能的
- 压缩每个块并存储在一个文件中(名称中带有一些编号,如 001、002 等..)
我已经意识到像这样的命令GNU并行 https://www.gnu.org/software/parallel/man.html or csplit
但不知道如何将其组合在一起。
如果无需为其编写自定义 Perl 脚本即可实现上述功能,那就太好了。然而,这可能是另一个最后的解决方案,但同样不确定如何最好地实施它。
GNU Parallel 可以将标准输入分割成记录块。这会将 stdin 分割成 50 MB 的块,每条记录为 2 行。每个块将被传递到 gzip 并压缩为名称 [chunk number].gz:
cat big | parallel -l2 --pipe --block 50m gzip ">"{#}.gz
如果您知道第二行永远不会以“{index”开头,您可以使用“{index”作为记录开始:
cat big | parallel --recstart '{index' --pipe --block 50m gzip ">"{#}.gz
然后,您可以通过以下方式轻松测试拆分是否正确:
parallel zcat {} \| wc -l ::: *.gz
除非您的记录长度都相同,否则您可能会看到不同的行数,但都是偶数。
观看介绍视频以进行快速介绍:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1 https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
浏览本教程 (man parallel_tutorial)。你命令行
会因此而爱你。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)