按列逐行匹配两个文件 - 无键

2024-01-10

我有两个包含 80,000 多条长度相同的记录的大文件。我需要按文件的前 8 个字符逐行比较两个文件。文件一的第一行将与文件二的第一行进行比较。文件一的第二行将与文件二的第二行进行比较。

样本文件1

01234567blah blah1
11234567blah blah2
21234567blah blah3
31234567blah blah4

样本文件2

31234567blah nomatch
11234567matchme2
21234567matchme3
31234567matchme4

第 2 - 4 行应该匹配,但第 1 行不应该匹配。我的脚本匹配第 1 行到第 4 行,但应该仅与第 1 行进行比较。

awk '                                                        
FNR==NR {                                                  
a[substr($0,1,8)]=1;next                                       
        }                                                              
{if (a[substr($0,1,8)])print $0; else print "Not Found", $0;} 
'  $inputfile1  $inputfile2     >  $outputfile1               

谢谢。


对于逐行比较,您需要使用FNR变量作为键。尝试:

awk 'NR==FNR{a[FNR]=substr($1,1,8);next}{print (a[FNR]==substr($1,1,8)?$0:"Not Found")}' file1 file2
Not Found
11234567matchme2
21234567matchme3
31234567matchme4
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

按列逐行匹配两个文件 - 无键 的相关文章

  • PHP:合并/添加多维数组?

    假设我有几个具有相同结构的多维数组 如下所示 basketA fruit apple 1 basketA fruit orange 2 basketA fruit banana 3 basketA drink soda 4 basketA
  • 计算复杂数组的abs()值的最快方法

    我想计算 C 或 C 中复杂数组元素的绝对值 最简单的方法是 for int i 0 i lt N i b i cabs a i 但对于大向量来说 速度会很慢 有没有办法加快速度 例如使用并行化 语言可以是 C 或 C 鉴于所有循环迭代都是
  • numpy 数组最快的保存和加载选项

    我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作 然而 这些函数对于每个数组都需要几秒钟的时间 是否有更快的方法来保存和加载
  • 将 C++ 数组传递给 Ada95

    我正在尝试将无符号整数数组从 C 传递到 Ada Ada Lovelace 教程指出 Ada 数组对应于 C 中指向数组第一个元素的指针 这就是我正在尝试做的事情 C unsigned int buffer bufferSize unsig
  • 从字符串中删除多个子字符串 - Java

    我需要从给定字符串中删除多个子字符串 例子 String exclude one two three String input if we add one and two we get three 我希望我的程序从输入字符串中删除所有出现的
  • 如何在不使用反射的情况下查看对象是否是数组?

    在Java中如何在不使用反射的情况下查看对象是否是数组 如何在不使用反射的情况下迭代所有项目 我使用 Google GWT 所以不允许我使用反射 我很想在不使用反射的情况下实现以下方法 private boolean isArray fin
  • Perl:散列 2 中数组的数值排序(施瓦茨变换)

    这实际上是该线程的后续内容 Perl 散列中数组的数字排序 https stackoverflow com questions 7914931 perl numerical sort of arrays in a hash 我无法编辑原始问
  • 使用不同的阈值替换多列中的值

    我有一个包含多个列的数据集 其中包含我想要转换为二进制的定量数据 为此 我想使用每列不同的阈值 Example Input antigen1 antigen2 antigen3 antigen4 1 215 421 2 12 2 1524
  • int arr[ ] 是有效的 C++ 吗?

    我试图理解是否写作int arr 在 C 中有效 举个例子 int a is this valid extern int b is this valid int ptrB is this valid struct Name int k is
  • 是否可以在 PowerShell 中使 IndexOf 不区分大小写?

    我在终端服务器中由查询会话命令组成的数组中搜索索引时遇到问题 这是有问题的脚本 Array of logged users in terminal servers a Get RDUsersession CollectionName BLA
  • AWK 或 sed 方式粘贴非相邻行

    cat file aaa bbb ccc ddd eee jjj kkk lll mmm nnn ooo ppp 以下 AWK 命令会将 mmm 行粘贴到 ddd eee 行的末尾 有没有更简单的方法使用 AWK 或 sed 来做到这一点
  • shell 脚本中数组的最大元素及其索引

    如何在 shell 脚本中从数组中找到最大元素及其索引 我有一个数组 a 2 2116565098 2 1238242060 2 1747941240 2 3201010162 2 3677779871 1 8126464132 2 124
  • 相当于 JavaScript 中 Ruby 的each_cons

    许多语言都曾提出过这个问题 但 javascript 却没有 Ruby 有方法Enumerable each cons https devdocs io ruby 2 5 enumerable method i each cons看起来像这
  • 在关联数组中查找重复值并将它们添加到计数中

    您好 我正在尝试计算关联数组中重复值的数量 如下所示 array 3 0 gt array 3 Title gt string 25 hello Price gt int 50 Count gt int 1 1 gt array 3 Tit
  • Python/PyTables:数组的不同列是否可以有不同的数据类型?

    我创建了一个可扩展的 Nx4 列数组 某些列需要 float64 数据类型 其他列可以使用 int32 进行管理 是否可以改变列之间的数据类型 现在我只使用一个 float64 如下 但它需要巨大的磁盘空间来存储 gt 10 GB 文件 例
  • 按元素出现的频率对数组元素进行排序

    是否可以在 matlab octave 中使用sort函数根据元素的相对频率对数组进行排序 例如数组 m 4 4 4 10 10 10 4 4 5 应该产生这个数组 5 10 10 10 4 4 4 4 4 5是出现频率较低的元素 位于顶部
  • 如何使用Gson将JSONArray转换为List?

    在我的 Android 项目中 我试图将收到的 JSONArray 转换为列表 在 的帮助下这个答案 https stackoverflow com questions 8371274 how to parse json array in
  • 从文件中删除包含非英语 (Ascii) 字符的行

    我有一个文本文件 其中包含来自不同语言的字符 例如 中文 拉丁文等 我想删除包含这些非英语字符的所有行 我想包含所有英文字符 a b 数字 0 9 和所有标点符号 我如何使用 awk 或 sed 等 unix 工具来完成此操作 Perl 支
  • 位图太大 as3

    在AS3中 我从zip文件加载png nochump的zip库通过ByteArray到Loader png 的宽度最大可达 45k 像素 但高度仅为 120 像素 这在 Flash 中产生了一个问题 因为图像的宽度只能约为 8000 像素
  • Python 中的 C 指针算术

    我正在尝试将一个简单的 C 程序转换为 Python 但由于我对 C 和 Python 都一无所知 这对我来说很困难 我被 C 指针困住了 有一个函数采用 unsigned long int 指针并将其值添加到 while 循环中的某些变量

随机推荐

  • SQL Server GROUP BY COUNT 仅连续行

    我在 Microsoft SQL Server 2008 R2 上有一个名为 DATA 的表 其中包含三个不可为 null 的整数字段 ID 序列和值 具有相同 ID 的序列值将是连续的 但可以以任何值开头 我需要一个查询 该查询将返回具有
  • Laravel 4 中的 Cron 作业

    我需要一个 Cron 作业来对网站执行 Scraper 并发送包含信息的电子邮件 我创建了一个控制器来执行此操作 但是当我设置命令来运行该文件时 php app controllers ScraperController php 我收到这个
  • 使用 Javascript/jQuery 以编程方式关闭 SELECT 下拉列表

    我有一个用一个值初始化的下拉列表 当用户单击它时 单个元素将被删除 并添加一个新元素 并显示 正在加载 然后向服务器发出 AJAX 调用 返回时 新值将添加到控件中 问题是该控件在更新时保持打开状态 我想将其关闭 这是一个例子 http j
  • 为什么 Active Directory 不向我返回 PagedResultsResponseControl?

    我正在尝试从 Java 枚举 Active Directory 中的所有组 有很多 所以我得到了SizeLimitExceededException1000 个结果后 我正在尝试使用PagedResultsControl 我的代码非常接近地
  • 在 Facebook Graph API 中,获取用户电子邮件地址和性别的 API 调用是什么?

    我在以下链接的帮助下使用 Graph API 和 Facebook SDK for PHP https developers facebook com docs php howto profilewithgraphapi 4 0 0 htt
  • 加载 XGBoost 模型:ModuleNotFoundError:没有名为“sklearn.preprocessing._label”的模块

    我在使用以下代码加载预训练的 xgboost 模型时遇到问题 xgb model pickle load open churnfinalunscaled pickle dat rb 当我这样做时 我收到以下错误 ModuleNotFound
  • 聊天中的 Python 客户端

    我在尝试构建聊天客户端时遇到问题 我刚刚开始 这是我的代码 import socket my socket socket socket socket AF INET socket SOCK STREAM my socket connect
  • NetLogo 高效创建任意度数分布的网络

    这是一个后续问题NetLogo 创建固定数量链接的有效方法 https stackoverflow com questions 32967388 netlogo efficient way to create fixed number of
  • 优化 Swift 中的嵌套 for 循环

    我得到了这个方法来计算白色像素UIImage 我需要遍历所有像素来增加我找到的每个白色像素的计数器 我正在尝试提高它的性能 但我找不到更好的方法 有任何想法吗 func whitePixelCount gt Int let width In
  • Lambda 表达式常用语法

    我可以遵循任何简单的语法或规则来在 C 中构建 lambda 表达式 吗 我阅读了一些文章并了解了 lambda 表达式是什么 但如果我有通用语法或规则 那将会有所帮助 有多种表达 lambda 的方法 具体取决于具体场景 一些示例 sim
  • Magento - JavaScript 错误阻止添加和保存类别

    我正在尝试在 Magento CE 1 8 1 的本地安装上添加新的根类别 但是当我按下 保存类别 按钮时 我在控制台中收到以下错误 并且屏幕上没有任何反应 我尝试重新安装所有核心文件等 但似乎没有任何方法可以解决此问题 Uncaught
  • Gdata包perl问题

    我正在尝试遵循这个简单的 2 分钟视频教程 将 Excel 电子表格作为数据框导入到 R 中 http www screenr com QiN8 http www screenr com QiN8 我遵循了每个步骤 包括在我的 Win 7
  • 通过 HttpClientFactory 实现实现动态代理

    I have Asp Net Core WebApi 我正在根据以下方式发出 Http 请求HttpClientFactory模式 https learn microsoft com en us aspnet core fundamenta
  • 浅层渲染依赖于 TweenLite 的组件

    我正在尝试使用 React 组件进行简单的单元测试 但我不断收到 C work portfolio node modules gsap TweenMax js 13 import TweenLite TweenPlugin Ease Pow
  • 如何在javascript文件之间共享数据?

    我 我认为 有 js 的独特问题 我正在使用量角器和 Jasmine 编写测试 我需要在 js 文件之间共享数据 有什么办法可以做到这一点吗 我找到的所有解决方案都是针对网页的 我只使用 js 文件 我期待您的迅速回复 如果有任何信息缺失
  • 使用 HttpClient 写入正文请求

    我想用 XML 内容类型编写请求正文 但我不知道如何使用 HttpClient 对象 http hc apache org httpclient 3 x apidocs index html http hc apache org httpc
  • 联合身份验证令牌保存在哪里 [WIF STS]?

    当我开始探索 WIF 时 我对以下几点有疑问 在Windows Identity Foundation WIF 中 查看安全令牌服务 STS 我想知道在哪里联合身份验证令牌正在被拯救吗 我认为它在浏览器 cookie 中 如果是的话 有人可
  • 如何在 Debian Wheezy 上安装 git 1.8 或更高版本

    我正在尝试安装更高版本的 git 主要是 1 8 或更高版本 如果我尝试使用安装它apt get install git我最终安装版本1 7 10 4 我已经尝试使用以下方法更改存储库 add apt repository ppa git
  • session._get_current_object() 到底返回什么对象?

    我正在使用 Flask 努力了解会话如何工作的细节 我正在使用 Python 3 6 1 烧瓶0 12 2 烧瓶文档明确指出 http flask pocoo org docs 0 12 api flask session 粗体是我的 会话
  • 按列逐行匹配两个文件 - 无键

    我有两个包含 80 000 多条长度相同的记录的大文件 我需要按文件的前 8 个字符逐行比较两个文件 文件一的第一行将与文件二的第一行进行比较 文件一的第二行将与文件二的第二行进行比较 样本文件1 01234567blah blah1 11