从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法

2024-02-23

所以我有以下内容sed一班轮：

sed -e '/^S|/d' -e '/^T|/d' -e '/^#D=/d' -e '/^##/d' -e 's/H|/,H|/g' -e 's/Q|/,,Q|/g' -e '1 i\,,,' sample_1.txt > sample_2.txt

我有很多行以以下任一开头：

S|
T|
#D=
##
H|
Q|

这个想法是not复制以前四个之一开头的行并取代H|（在行的开头）由,H| and Q|（在行的开头）由,,Q|

但现在我需要：

使用尽可能最快的方法（互联网表明 (m)awk 比 sed 更快）
从 .txt.gz 文件读取并将结果保存在 .txt.gz 文件中，如果可能的话，避免中间的解压缩/重新压缩

事实上，有数百个 .txt.gz 文件，每个大约 1GB，需要以这种方式处理（都在同一个文件夹中）。是否有一种 CLI 方法可以在所有内核上并行运行代码（这样每个内核都会被分配目录中文件的子集）？

--我使用linux --ubuntu

未经测试，但可能与此非常接近GNU 并行.

首先创建输出目录，以免覆盖任何有价值的数据：

mkdir -p output

现在声明一个函数，该函数执行一个文件并将其导出到子进程，以便作业由GNU 并行可以找到它：

doit(){
    echo Processing $1
    gzcat "$1" | awk '
        /^[ST]\|/ || /^#D=/ || /^##/ {next}    # ignore lines starting S|, T| etc
        /^H\|/ {print ","}                     # prefix "H|" with ","
        /^Q\|/ {print ",,"}                    # prefix "Q|" with ",,"
        1                                      # print all other lines
    ' | gzip > output/"$1"
}
export -f doit

现在处理所有txt.gz并行文件并显示进度条：

parallel --bar doit ::: *txt.gz

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

Ubuntu

awk

sed

grep

从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法的相关文章

在哪里可以找到并安装 pygame 的依赖项？

我对 Linux 比较陌生正在尝试安装 python 的 pygame 开发环境当我运行 setup py 时它说我需要安装以下依赖项我找到并安装了其中之一 SDL 然而其他人则更加难以捉摸 Hunting dependencie
Linux 中的动态环境变量？

Linux 中是否可以通过某种方式拥有动态环境变量我有一个网络服务器网站遵循以下布局 site qa production 我想要一个环境变量例如 APPLICATION ENV 当我在 qa 目录中时设置为 qa 当我在生产目录中时
如何在数组中存储包含双引号的命令参数？

我有一个 Bash 脚本它生成存储和修改数组中的值这些值稍后用作命令的参数对于 MCVE 我想到了任意命令bash c echo 0 0 echo 1 1 这解释了我的问题我将用两个参数调用我的命令 option1 without
所有平台上的java

如果您想用 java 为 Windows Mac 和 Linux 编写桌面应用程序那么所有这些代码都相同吗您只需更改 GUI 即可使 Windows 应用程序更像 Windows 等等如果不深入细节它是如何工作的 Java 的卖点之
如何有效截断文件头？

大家都知道truncate file size 函数通过截断文件尾部将文件大小更改为给定大小但是如何做同样的事情只截断文件的尾部和头部呢通常您必须重写整个文件最简单的方法是跳过前几个字节将其他所有内容复制到临时文件中并在完成
linux perf：如何解释和查找热点

我尝试了linux perf https perf wiki kernel org index php Main Page今天很实用但在解释其结果时遇到了困难我习惯了 valgrind 的 callgrind 这当然是与基于采样的 pe
两种情况或 if 哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须制作一个非常轻的脚本它将接受用户的选项并调用脚本中的函数来执行一些任务现在我可以使用 IF 和 CASE 选项但我想知道两
Android 存储库初始化失败

我想我非常仔细地遵循该网站的说明 http source android com source downloading html http source android com source downloading html 但是当我尝试这
CentOS：无法安装 Chromium 浏览器

我正在尝试在 centOS 6 i 中安装 chromium 以 root 用户身份运行以下命令 cd etc yum repos d wget http repos fedorapeople org repos spot chromium
交叉编译armv5，但它创建v7二进制文件

我设法为arm926ej s创建了一个目标文件我在 qemu 上使用 Debian Arm arm linux gnueabi gcc 4 4 static O c mcpu arm926ej s hello c o hello root
Linux 可执行文件与 OS X“兼容”吗？

如果您在基于 Linux 的平台上用 C 语言编译一个程序然后将其移植以使用 MacOS 库它会工作吗来自编译器的核心机器代码在 Mac 和 Linux 上兼容吗我问这个问题的原因是因为两者都是基于 UNIX 的所以我认为这是真
Linux：如何从特定端口发送TCP数据包？

如何打开原始套接字以从特定 TCP 端口发送我希望所有连接始终来自临时端口以下的一系列端口如果您正在使用raw套接字然后只需在数据包标头中填写正确的 TCP 源端口即可相反如果您使用 TCP 套接字接口 socket connec
ubuntu 16.04.1 LTS 启动 Android 模拟器时崩溃

我已经尝试过 Android studio 上的 AVD 和 Genymotion 模拟器我的 ubuntu 16 04 1 在启动 android 模拟器时崩溃冻结我的电脑内存是16G 在我于 2016 年 9 月 19 日安装了
如何在shell中输出返回码？

我正在尝试通过调用自定义 shell 脚本sh bin sh c myscript sh gt log txt 2 gt 1 echo 该命令的输出是创建的后台进程的 PID 我想指导 bin sh保存返回码myscript sh到某个文件
Ubuntu 12.10 libgtk-3-0 缺少符号

我正在运行 Ubuntu 12 10 不知何故我的 libgtk 3 0 搞砸了当尝试运行许多不同的应用程序时我收到如下错误 gedit symbol lookup error usr lib libgtk 3 so 0 undefin
jpegtran 优化而不更改文件名

我需要优化一些图像但不更改它们的名称 jpegtran copy none optimize image jpg gt image jpg 但是这似乎创建了 0 的文件大小当我对不同的文件名执行此操作时大小仍然完全相同怎么样 jp
没有名为“PIL”的模块

当我尝试时遇到错误 from PIL import Image ImageFilter 在 Python 文件中我收到一条错误消息ModuleNotFoundError No module named PIL 到目前为止我已经尝试卸载重
为什么我可以直接从 bash 执行 JAR？

我是一个长期从事 Java 工作的人并且知道运行带有主类的 JAR 的方法MANIFEST MFJar 中的文件很简单 java jar theJar jar 我用它来启动 Fabric3 服务器包含在bin server jar在其标
Ubuntu 上的 Vim：文本渲染错误，奇怪地重复和消失

不久前我在 ubuntu 12 04 上安装了 vim 有时当我在代码上运行光标使用键盘而不是鼠标时文本会消失就好像渲染字符时出现问题一样当我再次运行光标时它通常会重新出现这似乎是随机发生的但通常足以让人恼火为了更清楚
如何通过ssh检查ubuntu服务器上是否存在php和apache

如何通过ssh检查Ubuntu服务器上apache是否安装了php和mysql 另外如果安装的话在哪个目录如果安装了其他软件包例如 lighttpd 那么它在哪里确定程序是否已安装的另一种方法是使用which命令它将显示您正在搜索

随机推荐

从ansible中注册的变量中检索键的值

我正在编写各种剧本用于在 AWS 中配置用户组策略等目前我正在尝试编写一个任务从给定的 AWS IAM 账户中删除所有访问密钥要使用 ansible 中的 iam 模块正确执行此操作您必须指定要禁用的 AWS 访问密钥该脚
jquery 只捕获第一个按键？

我有这个代码 j regfname keypress function alert Handler for keypress called 并且只想执行一次或仅在第一次按键时执行最理想的方法是什么您可以使用 jQueryone htt
快速将字符串转换为 CLLocationCooperative2D

使用 Firebase 作为后端我有一系列纬度和经度坐标字符串如何将它们转换为 CLLocationCooperative2D 以便我可以将它们用于注释这是每次更新时从 Firebase 获取信息的代码 var UpdateRef F
Cucumber + Capybara + Selenium：选择文本

我正在对文本编辑器进行更改并且需要能够选择文本以使用 JavaScript 对其进行操作如何使用 Cucumber Capybara 和 Selenium 选择文本我发现了另一个 stackoverflow 问题讨论如何使用 Jav
如何将自定义 python 与现有包一起使用 - nix 派生？

我定义了一个带有未合并补丁的自定义 nix cpython 派生如果我将其指定为目标 nix shell 就会得到我期望的版本 pkgs import
从 R 控制台窗口相当于 wget

你好我想知道 Windows 中 wget 的等价物是什么我目前在 R 中有一个函数其中包含命令 system wget www random url com file 从运行 R 的 mac unix 机器上从互联网下载文件 Win
VSCode：用于修改用户设置的键盘快捷键

我喜欢 CodeLens 的想法它是 VSCode 的插件可以告诉您所有函数和变量的引用计数然而当我扫描代码时为包含 X 引用行而添加的额外垂直边距让我很恼火以至于我将其禁用这很遗憾因为这是有用的信息我希望能够通过键盘快
如何让 docker run 继承 ulimits

通过 docker 运行命令似乎不符合我当前的配置ulimits ulimit t 5 sudo bash c ulimit t 5 sudo docker run rm debian wheezy bash c ulimit t unli
以编程方式禁用在 Intranet 中运行并呈现 .xhtml 页面的站点的 IE-8 兼容模式

我有一个 JSF 应用程序其 xhtml 页面在 Intranet 中运行我尝试删除默认元标记并添加元标记但没有用这个解决方案是否仅适用于纯 html 页面或者是否有任何其他方法可以使用它以编程方式禁用兼容模式如果您想阻止所有
如何获取Docker桌面虚拟机的IP地址？

我在一个团队中我们中的一些人使用 docker 工具箱一些用户使用 docker 桌面我们正在编写一个需要与开发中的 docker 容器进行通信的应用程序在 docker 工具箱上我知道 docker machine env 命令
上传 Base64 图像 Facebook Graph API

我正在尝试使用 Node js 将 Base64 图像上传到 FaceBook 页面如果我从文件系统读取文件即使用 fs readFileSync c a jpg 我已经设法使上传能够处理所有多部分数据等但是如果我使用 base64
为什么 ("foo" === new String("foo")) 在 JavaScript 中计算结果为 false？

我本来打算在比较字符串值时一直使用三重等于严格比较但现在我发现 foo new String foo 是错误的与此相同 var f foo g new String foo f g false 当然 f g true 那么是否建议始
如何在一个单元格中包含 python 代码和 markdown

jupyter笔记本可以支持markdown单元格或verse Visa中的内联python代码关节炎计算或绘制图形在一个单元格中同时包含 Python 代码和 Markdown from IPython display import
angularjs / 渲染内联或使用 ng-include 之间的性能差异

我可以使用 ng include 将部分包含在角度视图中或者我可以使用服务器端部分在服务器上执行此操作我正在考虑使用服务器端部分而不是角度部分然后使用 ng include 使用脚本标记因为我在某处读到角度部分创建新范围这可能会损
从 C 源代码调用汇编例程

我有这个简单的 C 源代码 include
将包含多个工作表的 xlsx 文件转换为多个 xlsx 文件

我有一个包含多个工作表的 xlsx 文件我想将所有工作表拆分为不同的 xlsx 文件例如我有一个文件 matt xlsx 它有 5 张纸名称分别为 A B C D E 我想将它们分成 5 个文件命名为 a xlsx b xlsx
请推荐一个好的 OpenStreetMap 组件 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Python Scipy 用于 2D 外推样条函数？

我想为二维矩阵编写一个外推样条函数我现在拥有的是一维数组的外推样条函数如下所示 scipy interpolate InterpolatedUnivariateSpline http docs scipy org doc scipy 0
在 clojure 中读取文件并忽略第一行？

使用代码来自这个答案 https stackoverflow com a 7757674 1212338 我有 defn repeat image n string println apply str repeat n string def
从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法

所以我有以下内容sed一班轮 sed e S d e T d e D d e d e s H H g e s Q Q g e 1 i sample 1 txt gt sample 2 txt 我有很多行以以下任一开头 S T D H Q 这

从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法

从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法 的相关文章

随机推荐

热门标签

从巨大的 txt.gz 文件中选择/复制包含字符串的行的最快方法的相关文章