使用 awk 根据条件比较两个文件

2024-03-18

我有两个文件：

1.txt:

j_e_s_s_i_c_a_a_n_n [email protected] /cdn-cgi/l/email-protection  61b8a203438ea1c56c1489ec7bea7a0e
9871951 [email protected] /cdn-cgi/l/email-protection 671cb9239bf797a082f723a07a9c713f
holliebrian [email protected] /cdn-cgi/l/email-protection a2e531ea7df55290c35d74082f38f020
9075407 [email protected] /cdn-cgi/l/email-protection  d20f83ee6933aa1ea047fe5cbd9c1fd5
9837056 [email protected] /cdn-cgi/l/email-protection e4d11b1c62cfbb7bfb49e4644e70d476

2.txt:

a2e531ea7df55290c35d74082f38f020:182:@*/
671cb9239bf797a082f723a07a9c713f:1199
e4d11b1c62cfbb7bfb49e4644e70d476:abcd123
d20f83ee6933aa1ea047fe5cbd9c1fd5:33;1:11

我想要这两个文件作为输出：一个是 left.txt，其中 1.txt 的行的第三列 (FS = ' ') 与 2.txt 的第二列 (FS = ':') 不匹配

左.txt：

j_e_s_s_i_c_a_a_n_n [email protected] /cdn-cgi/l/email-protection  61b8a203438ea1c56c1489ec7bea7a0e

另一个文件是 result.txt，其中 1.txt 中的所有行都包含 2.txt 中的匹配项。但在输出文件中，匹配的第三列应替换为匹配的行第二列（FS = ':'）

结果.txt：

9871951 [email protected] /cdn-cgi/l/email-protection 1199
holliebrian [email protected] /cdn-cgi/l/email-protection 182:@*/
9075407 [email protected] /cdn-cgi/l/email-protection 33;1:11
9837056 [email protected] /cdn-cgi/l/email-protection abcd123

我编写了一个脚本来实现相同的任务：

awk -F : 'FNR==NR {s=$0;sub(/[^:]*:/, "", s); p[$1]=s; next} !($NF in p) {print > "left.txt"; next} {$NF=p[$NF]} 1' 2.txt FS=' ' OFS=' ' <(tr -d '\r' < 1.txt) > result.txt

我得到了预期的输出，但在更大的文件 1.txt (~ 3GB) 和 2.txt (~ 1 GB) 上。该脚本因以下错误而崩溃：

awk：命令。行：1：（FILENAME = 2.txt FNR = 21085923）致命： /home/corinna/src/gawk/gawk-4.2.0/gawk-4.2.0-1.x86_64/src/gawk-4.2.0/node.c:1021:more_blocks: freep: 无法分配 9600 字节内存 (Cannot allocate memory)

请帮助我使脚本运行更大的文件。任何帮助将不胜感激。使用 awk 不是必须的。唯一的座右铭是在更短的时间内完成正确的工作并且不崩溃。

下列的awk可能会帮助你同样。

awk '
FNR==NR{
  val=$1;
  sub(/[^:]*/,"");
  sub(/:/,"");
  a[val]=$0;
  next
}
!($NF in a){
  print > "left.txt";
  next
}
{
  print $1,$2,a[$NF]> "result.txt"
}
'  FS=":" 2.txt FS=" "  OFS=" " 1.txt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

bash

awk

使用 awk 根据条件比较两个文件的相关文章

InstaPy：“错误，无法确定 64 位 Linux 的正确文件名”

有人知道如何解决或解决这个问题吗来自控制台的堆栈跟踪执行后报告错误 InstaPy Version 0 6 9 Workspace in use home zanettra InstaPy Error unable to determi
我的 unix 脚本出了什么问题

bin bash while echo n Player s name read name name ZZZ do searchresult grep name playername if searchresult 0 then echo
如何将命令作为参数传递给 ssh [重复]

这个问题在这里已经有答案了我的需要是让这个命令起作用 sshpass p XXXX ssh oStrictHostKeyChecking no email protected cdn cgi l email protection sudo
为什么在 Linux 上字符串文字的内存地址与其他字符串文字的内存地址如此不同？

我注意到字符串文字在内存中的地址与其他常量和变量 Linux 操作系统非常不同它们有许多前导零未打印 Example const char h Hi int i 1 printf p n void h printf p n void
设置 Pyenv 的路径

我正在尝试在我的服务器中设置 Pyenv 的加载路径 bashrc file 我正在关注这个tutorial https realpython com intro to pyenv 它要求我们在哪里设置pyenv到加载路径然而在我的 b
Linux 中热插拔设备时检测设备是否存在

我正在运行 SPIcode http lxr free electrons com source drivers spi spi omap2 mcspi c在熊猫板上我想知道其中的哪个功能code http lxr free electr
为 Qt 应用程序创建 Linux 安装

我刚刚用 Qt Creator 制作了一个很棒的程序我对自己很满意如何将其从台式机移至笔记本电脑那么最好的方法是安装程序对吗对于 Ubuntu 这是一个 Debian 软件包对吗我怎么做有人这样做过吗他们可以分享 QT
在 Ubuntu 16.04 上找不到 printf.c

我最近切换到Ubuntu 16 04 我在用vscode作为 Ubuntu 上的 IDE 我配置了其他语言但我无法做到这一点C C 我创建c cpp properties json launch json tasks json 当我开始编
未找到命令“ember”

看来我搞砸了 ember cli 安装我已经使用 sudo 安装了 npm 但是在阅读了 npm 上 ember cli 和 sudo 的一些问题后我按照此处的说明卸载并重新安装https gist github com isaacs
将“npm run start”的输出写入文件

我想捕获的输出npm run start在一个文件中我遇到了大量错误我想更好地控制如何筛选输出当我尝试时 npm run start gt log txt 我得到一个非常简短的文件 8 行其结尾为 34m 39m 90m wdm 3
C 程序从连接到系统的 USB 设备读取数据

我正在尝试从连接到系统 USB 端口的 USB 设备例如随身碟获取数据在这里我可以打开设备文件并读取一些随机原始数据但我想获取像 minicom teraterm 这样的数据请让我知道我可以使用哪些方法和库来成功完成此操作以及如
如何让“grep -zoP”单独显示每个匹配项？

我有一个此表格的文件 X this is the first match blabla X this is the second match and here we have some fluff 我想提取 X 之后和相同标记之间出现的所有
为什么 Linux 对目录使用 getdents() 而不是 read()？

我浏览 K R C 时注意到为了读取目录中的条目他们使用了 while read dp gt fd char dirbuf sizeof dirbuf sizeof dirbuf code Where dirbuf是系统特定的目录结构
如何将参数传递给java bash脚本？ [复制]

这个问题在这里已经有答案了我有一个简单的 bash 脚本来运行我的 java 程序就这个 run sh bin sh java jar target my jar arch jar 我想将参数传递给这个脚本该脚本必须将它们传递给jav
让 MongoDB 在 Linux 上监听远程连接

我已在 Windows 本地计算机上上成功安装 MongoDB 作为服务但现在我想将 MongoDb 移动到单独的服务器所以我将 tarball 解压到网络上的虚拟服务器运行 Linux 当我从本地计算机使用 PuTTY 连接到服务
SONAR - 使用 Cobertura 测量代码覆盖率

我正在使用声纳来测量代码质量我不知道的一件事是使用 Cobertura 测量代码覆盖率的步骤我按照以下步骤操作http cobertura sourceforge net anttaskreference html http cober
GCC 和 ld 找不到导出的符号...但它们在那里

我有一个 C 库和一个 C 应用程序尝试使用从该库导出的函数和类该库构建良好应用程序可以编译但无法链接我得到的错误遵循以下形式 app source file cpp text 0x2fdb 对 lib namespace Get
如何制作和应用SVN补丁？

我想制作一个SVN类型的补丁文件httpd conf这样我就可以轻松地将其应用到其他主机上 If I do cd root diff Naur etc httpd conf httpd conf original etc httpd con
如何更改 Ubuntu 14.04 上的 php-cli 版本？

我是 Linux 新手在篡改时破坏了一些 php 设置如果我执行一个包含以下内容的 php 脚本 phpinfo 它显示 php 版本为 5 6 但通过命令行如果我运行php v它返回 7 0 版本我想让两个版本匹配我怎样才能修复
嵌入式Linux poll()不断返回

我有一个特别的问题当我知道没有什么可读时民意调查不断返回因此设置如下我有 2 个文件描述符它们构成fd设置民意调查监视一种用于引脚从高到低的变化 GPIO 另一个用于代理输入代理输入出现问题处理的顺序是启动main函数然

随机推荐

使用 WPF 切换并单击列表框项目上的功能

我需要在列表框项目上添加功能用户可以通过单独单击每个项目来选择项目也可以通过按住 Shift 键并单击来选择列表中的一系列项目
为什么我的 Mac 应用程序没有显示在“LaunchPad”中？

我的应用程序之一 http bit ly 1iKQZAO http bit ly 1iKQZAO 只是不在苹果的 LaunchPad 对于我和客户上购物我已重置 LaunchPad 数据库并尝试手动添加它将应用程序图标拖动到启动板图标
时间序列直方图

是否可以创建一个像中描述的时间序列直方图this http www slideshare net postwait its all about telemetry使用 R 或 D3 js 进行演示幻灯片 36 39 或者是否有更好的方法将
Set-Cookie 标头中的 Priority=High 意味着什么？

我一直在Fiddler中查看Chrome的流量发现了一些我觉得不太明白的地方 Set Cookie GAPS 1 ZYBtVMzURzU2umKMxZThJ2lVPxy3Hg SvHhlG2k1Vy5pnA0 Path Expires W
是否可以在没有 pip 的情况下安装 django 包？

我正在尝试安装 django dash 来运行仪表板示例之一看看它是什么样的我在 Windows 上运行 Python 2 7 和 Django 1 6 5 我知道通常的方法是下载 pip 然后使用 pip 安装软件包但是我使用的工
def __init__(self) 有用吗？

我对 python 相当陌生并注意到这些帖子 Python init 和 self 它们是做什么的 https stackoverflow com questions 625083 python init and self what do
我可以在android中编写一个系统属性监听器吗？

使用 setprop 命令通过 adb 在 android 中设置系统属性后有没有办法在我自己的服务中监听此更改我尝试使用 SystemProperties addChangeCallback 但没有收到通知我是否错过了什么您可以
如何在Python中将日期时间转换为整数

我怎样才能转换YYYY MM DD hh mm ss在 python 中格式化为整数例如2014 02 12 20 51 14 gt 为整数我只知道如何转换hh mm ss但不是yyyy mm dd hh mm ss def time
为什么我的 AudioQueueOutputCallback 不会被调用？

我正在使用音频队列服务 API http developer apple com library mac documentation MusicAudio Reference AudioQueueReference Reference re
Flex SDK 3.5 - 检查文件 mimetype

有没有办法在 Flex SDK 3 5 中获取文件的 mimetype 而不使用其扩展名我需要验证上传的文件是否属于某种类型这适用于图像或文档 PDF ODT 等我找到的所有解决方案都是通过检查其扩展名来实现的如果我将 odt 文件
BigBlueButton 集成 - “由于缺少凭据，身份验证失败。”

我们正在考虑将 BigBlueButton 集成为我们现有网站的一部分所以我们尝试了以下可用的 APIhttps mconf github io api mate https mconf github io api mate 特别是我们
如何调用`function`函数？

我正在尝试调用该函数 function 在 R 代码中定义函数众所周知 function is a Primitive所用的内部当用户使用常规语法时通过 R 来定义函数即 mean1 function x base mean x 但没
exec-maven-plugin 生成的进程会阻止 maven 进程

我正在尝试使用 maven 执行以下场景 pre integration phase 使用主类启动基于 java 的应用程序使用 exec maven plugin Integration phase 运行集成测试用例使用 maven
错误：在“&”标记|之前应有“;”、“,”或“)”在网上找到的一个简单的C程序[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在网上找到了这个程序来练习 C 当我尝试在代码块中编译这个程序时我在两个地方收到此错误错误预期或 before token 代码
尝试安装 pygame 时元数据生成失败[重复]

这个问题在这里已经有答案了尝试使用以下命令 pip install pygame 在 python 3 11 上安装 pygame 但出现以下错误注意此错误源自子进程并且可能不是 pip 的问题错误元数据生成失败生成包元数据时
直接调用__init__的目的是什么？

我很难弄清楚我遇到的一些代码的用途代码有一个类Foo 其中有一个 init 带有多个参数的方法根据我迄今为止对 Python 的了解通过调用Foo bar 它将将此字符串作为参数传递给 init 我认为这应该相当于构造函数但我遇到的
node-webkit 中的 Require('jquery-ui') 会产生导航器未找到错误

我已经安装了jquery and jquery ui通过 npm 我的 node webkit 项目我也有一个index html它在启动时由 node webkit 加载并加载core js This core js两者都需要jque
.vimrc：获取 E474：无效参数：listchars=tab：无论我做什么

使用自定义 vimrc 文件加载 vim 时出现错误 Error E474 Invalid argument listchars tab 我尝试了很多事情包括将这些行放入我的文件中 scriptencoding utf 8 set enc
您能帮助我在实际示例中理解抽象类与接口的用法吗？

您能否让我对抽象类与继承的使用有一个几乎过于简单化的理解并帮助我以便我能够真正理解这个概念以及如何实现我有一个想要完成的项目但不知道如何实施我一直在和我的教授聊天他经常责备我说如果我无法弄清楚我可能还没有准备好学习这门课程
使用 awk 根据条件比较两个文件

我有两个文件 1 txt j e s s i c a a n n email protected cdn cgi l email protection 61b8a203438ea1c56c1489ec7bea7a0e 9871951 ema

使用 awk 根据条件比较两个文件

使用 awk 根据条件比较两个文件 的相关文章

随机推荐

热门标签

使用 awk 根据条件比较两个文件的相关文章