将 STDIN 拆分为多个文件（如果可能的话压缩它们）

2024-04-07

我有一个程序（gawk）将数据流输出到它的STDOUT。处理的数据实际上有 10 GB。我不想将其保留在单个文件中，而是将其分成多个块，并可能在保存之前对每个文件应用一些额外的处理（如压缩）。

我的数据是一系列记录，我不想拆分将记录减半。每条记录都匹配以下正则表达式：

^\{index.+?\}\}\n\{.+?\}$

或者为了简单起见，可以假设两行（首先是不均匀的，然后是从流的开头编号的）总是创建一条记录。

Can I:

使用一些标准的linux命令通过定义块的首选大小来分割STDIN？不需要精确给定记录变量大小不能保证它。或者，如果定义的话，仅记录数。按尺寸是不可能的
压缩每个块并存储在一个文件中（名称中带有一些编号，如 001、002 等..）

我已经意识到像这样的命令GNU并行 https://www.gnu.org/software/parallel/man.html or csplit但不知道如何将其组合在一起。如果无需为其编写自定义 Perl 脚本即可实现上述功能，那就太好了。然而，这可能是另一个最后的解决方案，但同样不确定如何最好地实施它。

GNU Parallel 可以将标准输入分割成记录块。这会将 stdin 分割成 50 MB 的块，每条记录为 2 行。每个块将被传递到 gzip 并压缩为名称 [chunk number].gz：

cat big | parallel -l2 --pipe --block 50m gzip ">"{#}.gz

如果您知道第二行永远不会以“{index”开头，您可以使用“{index”作为记录开始：

cat big | parallel --recstart '{index' --pipe --block 50m gzip ">"{#}.gz

然后，您可以通过以下方式轻松测试拆分是否正确：

parallel zcat {} \| wc -l ::: *.gz

除非您的记录长度都相同，否则您可能会看到不同的行数，但都是偶数。

观看介绍视频以进行快速介绍：https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1 https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程 (man parallel_tutorial)。你命令行会因此而爱你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

file

split

stdin

gnuparallel

将 STDIN 拆分为多个文件（如果可能的话压缩它们）的相关文章

错误：安装 ffi 时出错：错误：无法构建 gem 本机扩展

我在 Mac 64 位系统中遇到此错误并且机器上安装了 xcode Building native extensions This could take a while ERROR Error installing ffi ERROR F
如何像用户打字一样将输入发送到控制台？

这是我的问题我有一个程序必须在 TTY 中运行 cygwin 提供了这个 TTY 当我重定向 stdIn 时程序失败因为它没有 TTY 我无法修改该程序并且需要某种方法使其自动化如何抓取 cmd exe 窗口并向其发送数据并使其认
获取文件的上次访问时间

我知道使用File对象我们可以获得最后修改时间File i e 文件 lastModified https docs oracle com javase 8 docs api java io File html lastModified 但
使用 python-shell 持续交换数据

我需要从节点运行一些 python 脚本由于我的 python 脚本使用复杂的结构我认为如果只加载这些结构一次然后使用这些结构运行一些特定的脚本任务会更好在节点上我想永远运行一个脚本或者直到我说它可以终止并继续向该脚本发送
如何填充上次保存的用户和文件的上次保存日期

我有下面的代码从文件夹中获取文件名 Sub GetFileNames Assessed As T2 Dim sPath As String sFile As String Dim iRow As Long iCol As Long Dim
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
Lua中按字符分割字符串

我有像这样的字符串 ABC DEF 我需要将它们分开字符并将两个部分分别分配给一个变量在 Ruby 中我会这样做 a b ABC DEF split 显然Lua没有这么简单的方法经过一番挖掘后我找不到一种简短的方法来实现我所追求的
C# 中将一个字符串拆分为另一个字符串

我一直在使用Split 分割字符串的方法但这似乎仅在您按字符分割字符串时才有效有没有办法分割一个string 另一个字符串是按参数分割的我尝试将拆分器转换为字符数组但没有成功换句话说我想分割string THExxQUICKxx
如何读取 C# 字符串字典并将其写入文件？

我有一个 Dictionary 对象我想写入磁盘并能够从磁盘读取它理想情况下我会避免使用任何第三方库有没有一种简单的方法可以使用常规 C 4 来做到这一点答案已接受 Summary 选项 1 使用 JavaScriptSerial
java JFileChooser 文件大小过滤器

我知道我可以按文件类型进行过滤但是可以按文件大小进行过滤吗例如 JFileChooser 仅显示 3 MB 以内的图片简短的回答应该是你尝试过什么长答案是肯定的 JFileChooser fc new JFileChooser f
当我只能处理文件或文件路径时如何处理 SAF？

背景在 Android Q 之前如果我们想获取有关 APK 文件的信息我们可以使用写外部存储 https developer android com reference android Manifest permission html
如何在as3中不询问的情况下写入外部文件

我有这个代码 var fileRef FileReference new FileReference fileRef save ciao coso lingua txt 在现有的 lingua txt 文件上写入该脚本有效但每次他保存时
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
FileReader 在 Ionic 2 中未触发 onloadend

我正在尝试使用 cordova file plugin 读取本地文件目前我可以读取本地目录的内容并选择单个文件但我在获取文件内容时遇到问题这是我的函数从列表中选择文件后单击按钮即可调用该函数 import window resolv
如何在 Android '/data/data/pkg/files' 目录中创建文件层次结构？

我尝试在 Android 的 data data pkg files 目录中创建 foo bar txt 这似乎是文档中的矛盾要写入文件请使用名称和路径调用 Context openFileOutput http developer a
反转java String.split()效果的方法？ [复制]

这个问题在这里已经有答案了我正在寻找一种将字符串数组组合成分隔符的方法细绳与 split 相反在我尝试自己编写之前想询问一下论坛因为 JDK 拥有一切据我所知 JDK 中没有任何方法可以实现这一点阿帕奇公共语言 http co
PHP将数据写入文件中间而不重写文件的最佳方法是什么

我正在 php 1GB 中处理大型文本文件我正在使用 file get contents file txt NULL NULL 100000000 100 要从文件中间获取数据但如果我想将文件中的数据更改为与原始数据不同的更改我将不得
属性错误：“列表”对象没有属性“拆分”

我正在尝试读取一个文件并用逗号分隔每行中的一个单元格然后仅显示第一个和第二个单元格其中包含有关纬度和经度的信息这是文件 time 纬度经度类型2015 03 20T10 20 35 890Z 38 8221664 122 7649
我可以让 ungetc 取消阻止阻塞的 fgetc 调用吗？

我想在收到 SIGUSR1 后使用 ungetc 将 A 字符重新填充到标准输入中想象一下我有充分的理由这样做调用 foo 时 stdin 中的阻塞读取不会被收到信号时的 ungetc 调用中断虽然我没想到它会按原样工作但我想知道是
PHP：是否可以从文件内容（字符串）创建 SplFileObject 对象？

例如 contents file get contents image png 是否可以从 contents 创建 SplFileObject 对象 Thanks php 有一些特殊的流包装器 http www php net manual

随机推荐

Android Linkify 文本 - 单一文本视图中的 Spannable 文本 - 就像 Twitter 推文一样

我有一个 textView 和类似的文本这是简单的文本KeyWord和Link浏览在上面的文字中我想做单击链接即可打开该 URL AND 单击该关键字在我的应用程序中打开一个新活动 also 甚至整个 TextView 都有一个单击事
角度材质工具栏阴影

我是材料2新手我试图将主应用程序工具栏固定在屏幕顶部问题是标高无法正常工作内容隐藏了工具栏的阴影我这是我的 HTML 代码 app content height calc 100 64px overflow auto
Quartz属性文件传入环境变量

我正在尝试将环境变量添加到我的石英属性文件中但它没有正确加载这是我的quartz properties org quartz scheduler instanceName scheduler org quartz scheduler i
使用 Mongoose 更新字段子集

当仅指定 MongoDB 文档的部分字段时如何使用 Mongoose 更新该文档即更新指定字段但保留任何其他现有字段不变在以下路由处理程序中用户可以选择要提供的字段以下作品有效但使用if感觉报表不是特别大有更优雅的解决方案吗
AWK：打印一个字段中具有最大值的所有行每个其他字段，包括具有最大值和多个列的相同行

我很感激许多贡献者迅速提供了许多解决方案 AWK 打印一个字段中具有最大值的所有行每个其他字段包括具有最大值的相同行 https stackoverflow com questions 75392860 awk print all row
在 Alpine 中安装旧版本的软件包

最近 9 月 5 日 Alpine Linux 软件包存储库已更新为 postgresql client 12 4 我在 Dockerfile 中引用版本 12 3 apk add postgresql client 12 3 现在那个版本
我什么时候应该担心对齐问题？

我最近了解了一些关于对齐的知识但我不确定在哪些情况下它会成为问题有两种情况我想知道第一个是使用数组时 struct Foo char data 3 size is 3 my arch is 64 bit 8 bytes Foo arr
将 .sort 与 PyMongo 一起使用

使用 PyMongo 当我尝试检索按数字和日期字段排序的对象时如下所示 db test find number gt 1 sort number 1 date 1 我收到此错误 TypeError if no direction
内核模块和SCHED_RR线程的优先级

我有一个嵌入式 Linux 平台 Beagleboard 运行 Angstrom Linux 连接了两个设备通过 USB 连接的激光测距仪 Hokuyo UTM 30 通过 SPI 连接的定制外部板我们编写了一个Linux内核模块负责
python中逆ERF函数的命令[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在Python中计算函数的逆误差函数 erf 的命令是什么需要导入哪个模块 For the inverse误差函数 scipy speci
Highcharts / Highstock 阶梯线没有垂直“过渡”线？

是否可以省略方波线中的垂直线我想你可以称之为水平线这是一个例子实现这种外观的最简单方法是使用带有自定义线符号的散点图 define a custom line symbol Highcharts SVGRenderer pro
免费的非消耗性应用内购买，包含 Apple 服务器上托管的内容

包含 Apple 服务器上托管内容的非消耗性应用内购买是否可以免费我在文档中找不到任何有关此内容的信息并且由于您可以在 iTunes connect 中将应用内购买设置为免费所以我认为这是可能的我在 iTunes connect 上
创建反向剪辑路径 - CSS 或 SVG

我正在尝试创建本质上与 CSS 剪辑路径相反的内容使用 Clip path 时图像或 div 会被剪切以便仅保留您指定的形状而背景的其余部分将被有效删除我希望这样如果我剪辑一个形状它基本上会在最上层打一个洞并删除形状而不是背
EntityFramework Core - 复制实体并将其放回数据库

是否有最佳实践来复制实体根据用户输入对其进行一些更改然后将其重新插入数据库其他一些 Stackoverflow 线程提到即使数据库中存在相同的主键 EF 也会为您处理插入新对象但我不太确定 EF Core 是如何处理它的每当我尝
如何在 Plotly 中增加飞机的大小

Got the 以下代码 https github com tiago peres immersion blob master platforms v2 ipynb import pandas as pd import plotly gra
强制WKWebView显示移动版本

我试图强制 WKWebView 显示移动版本我在不同的应用程序版本中得到不一致的结果但是 Safari 总是正确播种移动设备我尝试设置 userAgent 似乎没有任何影响视图实际上我发现正确的解决方案是在启动应用程序时清除缓存
PHP正则表达式的逻辑运算符AND

我想在正则表达式中使用一种逻辑运算符 AND 我试过这个 exp1 exp2 但在 PHP 中不起作用需要用 PHP 语言编写我的程序还有其他方法吗如果所有条件以任意顺序存在则表达式必须匹配我不想把每个排列都写成 exp1 ex
如何在 jQuery 中创建链式延迟动画序列？

考虑拥有以下对象 div span This is div1 span div div span This is div2 span div div span This is div3 span div div span This is d
如何在 v-select 或 v-combobox 上有“全选”选项？

我们如何有一个全选选项来选择一个中的所有内容v select or a v combobox Vuetify 没有Select all选项v select 但是您可以使用按钮和方法自己完成像这样 JS methods selectAll
将 STDIN 拆分为多个文件（如果可能的话压缩它们）

我有一个程序 gawk 将数据流输出到它的STDOUT 处理的数据实际上有 10 GB 我不想将其保留在单个文件中而是将其分成多个块并可能在保存之前对每个文件应用一些额外的处理如压缩我的数据是一系列记录我不想拆分将记录减半每条记

将 STDIN 拆分为多个文件（如果可能的话压缩它们）

将 STDIN 拆分为多个文件（如果可能的话压缩它们） 的相关文章

随机推荐

热门标签

将 STDIN 拆分为多个文件（如果可能的话压缩它们）的相关文章