查找 >2 个文件中的共同元素

2023-11-22

我有三个文件，如下所示

文件1.txt

"aba" 0 0 
"aba" 0 0 1
"abc" 0 1
"abd" 1 1 
"xxx" 0 0

文件2.txt

"xyz" 0 0
"aba" 0 0 0 0
"aba" 0 0 0 1
"xxx" 0 0
"abc" 1 1

文件3.txt

"xyx" 0 0
"aba" 0 0 
"aba" 0 1 0
"xxx" 0 0 0 1
"abc" 1 1

我想根据前两列在所有三个文件中找到相似的元素。为了在两个文件中查找相似的元素，我使用了类似的东西

awk 'FNR==NR{a[$1,$2]++;next}a[$1,$2]' file1.txt file2.txt

但是，当输入文件超过 2 个时，我们如何在所有文件中找到相似的元素呢？有人可以帮忙吗？

使用当前的 awk 解决方案，输出会忽略重复的键列，并将输出显示为

"xxx" 0 0

如果我们假设输出来自 file1.txt，则预期输出为：

"aba" 0 0 
"aba" 0 0 1
"xxx" 0 0

即它也应该获取具有重复键列的行。

尝试以下通用解决方案N文件。它将第一个文件的数据保存在哈希值中1，并且对于下一个文件的每次命中，该值都会递增。最后，我比较每个键的值是否与处理的文件数相同，并仅打印那些匹配的文件。

awk '
    FNR == NR { arr[$1,$2] = 1; next }
    { if ( arr[$1,$2] ) { arr[$1,$2]++ } }
    END { 
        for ( key in arr ) {
            if ( arr[key] != ARGC - 1 ) { continue }
            split( key, key_arr, SUBSEP )
            printf "%s %s\n", key_arr[1], key_arr[2] 
        } 
    }
' file{1..3}

它产生：

"xxx" 0
"aba" 0

EDIT添加打印整行的版本（请参阅注释）。我添加了另一个具有相同键的数组，用于保存该行，并在printf功能。我对旧代码留下了评论。

awk '
    ##FNR == NR { arr[$1,$2] = 1; next }
    FNR == NR { arr[$1,$2] = 1; line[$1,$2] = $0; next }
    { if ( arr[$1,$2] ) { arr[$1,$2]++ } }
    END { 
        for ( key in arr ) {
            if ( arr[key] != ARGC - 1 ) { continue }
            ##split( key, key_arr, SUBSEP )
            ##printf "%s %s\n", key_arr[1], key_arr[2] 
            printf "%s\n", line[ key ] 
        } 
    }
' file{1..3}

NEW EDIT（参见评论）添加一个使用相同键处理多行的版本。基本上我加入所有条目而不是只保存一个，改变line[$1,$2] = $0 with line[$1,$2] = line[$1,$2] ( line[$1,$2] ? SUBSEP : "" ) $0。在打印时，我用分隔符进行反向分割（SUBSEP变量）并打印每个条目。

awk '
    FNR == NR { 
        arr[$1,$2] = 1
        line[$1,$2] = line[$1,$2] ( line[$1,$2] ? SUBSEP : "" ) $0
        next
    }
    FNR == 1 { delete found }
    { if ( arr[$1,$2] && ! found[$1,$2] ) { arr[$1,$2]++; found[$1,$2] = 1 } }
    END { 
        num_files = ARGC -1 
        for ( key in arr ) {
            if ( arr[key] < num_files ) { continue }
            split( line[ key ], line_arr, SUBSEP )
            for ( i = 1; i <= length( line_arr ); i++ ) { 
                printf "%s\n", line_arr[ i ]
            } 
        } 
    }
' file{1..3}

编辑有问题的新数据后，会产生：

"xxx" 0 0
"aba" 0 0 
"aba" 0 0 1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awk

Compare

查找 >2 个文件中的共同元素的相关文章

直到用户输入匹配变量为止

好的所以我正在尝试创建一个用户名密码登录脚本可能不是我仍在研究的最安全的想法我的脚本将加载变量以与这样的文件进行比较现在我只是在研究密码部分 path to variables conf 该文件将包含一个名为的变量 PASS SO
在 Ruby 中使用 >（大于号）比较两个字符串？

我在我正在从事的一个项目中发现了一段看起来有点可怕的代码它应该显示两个数字之间的增量但它使用的是 gt 比较数字字符串而不是数字我假设代码目前按预期工作所以我只是想了解 Ruby 在这种情况下如何比较这些字符串这是替换变量的示例
查找列中字段的平均值[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个这样的记录 1 11 11 T A 0 0 A 1 B 2 C 3 D 4 有 8 列每列由制表符空格分隔我需要的输出是这
使用 xslt 比较两个 xml 文件？

我有 2 个 xml 文件如何使用 xslt 比较两个文件是否相等如果不等于意味着第二个 xml 中发生了更改在 XPath 2 0 中你可以简单地使用fn deep equal http www w3 org TR 2005 CR
在 shell 脚本中禁止输出到屏幕

你好我写了一个小脚本 usr bin ksh for i in DAT do awk BEGIN OFS FS 3 353 3 353861958962 print i gt gt i changed awk 3 353 i change
从文件中读取行，在第二个文件中 grep ，并为每个 $line 输出一个文件

我有以下两个文件 sequences txt 158333741 Acaryochloris marina MBIC11017 uid58167 158333741 432 1 432 COG0001 0 158339504 Acaryoc
比较 Java 中的两个基元数组？

我知道 Arrays deepEquals Object Object 但这不适用于原始类型由于数组和自动装箱的限制请参阅这个相关帖子 https stackoverflow com questions 517751 java gene
Java，检查字符串是否为回文。不区分大小写

我想编写一个java方法如果字符串是回文则返回true 这是我到目前为止所拥有的 String palindrome boolean isPalindrome palindrome equals new StringBuilder pa
比较元胞数组中的字符串

我试图在单词列表中找到最常见的单词到目前为止这是我的代码 uniWords unique lower words for i 1 length words for j 1 length uniWords if uniWords j lo
如何在 awk 或 sed 中编写查找所有函数（使用正则表达式）

我有运行 python 的 bash 函数它从标准输入返回所有找到的正则表达式 function find all python c import re import sys print n join re findall 1 sys s
将数组值与同一数组中的其他值进行比较

我想要实现的是它将循环遍历数组然后它会检查数组中的项目在三个点上是否相同 product id 尺寸值和颜色值我想创建一个新数组其中列出了项目我唯一不想要的是重复的值我希望重复的值如果在这三个点上相同则数量将被计算在一起就像
awk 比较多个文件

我有2个文件 file1 1 apple 2 mango 3 banana 44 orange file2 1 apple 22 31 xyz 2 man 3 banana 44 oran 44 orange 我需要使用第 1 列和检查第
将文本文件转换为逗号分隔的字符串

我似乎没有找到与这个问题完全匹配的问题我有一个文本文件每行有一个文本标记没有任何逗号制表符或引号我想根据文件内容创建一个逗号分隔的字符串 Input one two three Output one two three 我正在使用
我如何在 ruby 中执行范围正则表达式，例如 awk /start/,/stop/

我想做一个 AWK 风格的范围正则表达式如下所示 awk hoststatus file 在 AWK 中这将打印文件中两个模式之间的所有行 hoststatus host name myhost modified attributes
Bash：循环遍历字符串数组后无法读出带空格的字符串

我正在使用循环读取数组的内容该数组包含名为 music 的目录层次结构中的所有目录和文件内容是 find 命令先前输出的字符串这个想法是根据流派艺术家和标题将 directory contents 中每个数组元素的完整目录路径分成子
通过 id 从通用列表中删除对象

我有一个像这样的域类 public class DomainClass public virtual string name get set public virtual IList
如何删除最后一次出现模式后的所有行？

我想删除最后一次出现模式之后的所有行除了模式本身 file txt honor apple redmi nokia apple samsung lg htc file txt 我想要什么 honor apple redmi nokia a
有一种简单的方法可以忽略时间戳来区分日志文件吗？

我需要比较两个日志文件但忽略每行的时间戳部分确切地说是前 12 个字符有没有一个好的工具或者一个聪明的 awk 命令可以帮助我根据您使用的 shell 您可以改变方法 Blair https stackoverflow com
如何使用深度等于 (Angular 7)

通过 VS Code 自动导入 import deepEqual require deep equal 不起作用错误 TS1202 定位时无法使用导入分配 ECMAScript 模块考虑使用 import as ns from mod
awk 的 printf 插入多个变量的正确语法是什么？

我复制了一些使用 printf 输出字符串在文件中出现的频率的代码 awk BEGIN print The number of times a appears in the file a a counter 1 END printf s n

随机推荐

依赖注入 Slim 框架 3

我正在使用 Slim Framework 3 创建 API 应用程序结构是 MVCP 模型视图控制器提供者是否可以对我的所有课程进行 Slim Dependency Inject 我正在使用 Composer 自动加载所有依赖项我
KeyedByTypeCollection 在 .Net 中的用途？

在检查 net 中的通用集合时我发现了 KeyedByTypeCollection 虽然我使用过它并了解了如何使用它但我不知道它在哪种场景下有用我通读了ServiceProvider 缓存等使用泛型完成无需强制转换但拿不到太多我
GWT 中需要取消绑定演示者

我按照此处给出的示例使用 GWT 应用程序中的 MVP 模式http code google com webtoolkit doc latest tutorial mvp architecture html 对于 MainView 中的每个
jQuery - 获取 div 中图像的所有 src 并将其放入字段中

我要修改本教程符合我的要求但我有一个问题我是 jQuery 的初学者我想从特定的 div 获取所有图像源并将它们放入字段中有一个变量images这是字段并包含一些图像但我想代替这个从 div 获取所有图像源并将它们放入字段中ima
NHibernate 异常：方法 Add 应该是“公共/受保护的虚拟”或“受保护的内部虚拟”

以这个类为例 public class Category PersistentObject
Python 按元素元组运算，如求和

无论如何 Python 中的元组操作是否可以像这样工作 gt gt gt a 1 2 3 gt gt gt b 3 2 1 gt gt gt a b 4 4 4 代替 gt gt gt a 1 2 3 gt gt gt b 3 2 1 gt
如何弯曲react-navigation-material-bottom-tabs的顶部两个角？

我是本地反应新手我正在使用反应导航反应导航材料底部选项卡我想做的就是弯曲底部选项卡栏的右上角和左上角 My Code const screen1 createMaterialBottomTabNavigator Home screen
Android - 对话框中的共享元素转换

我想知道是否有任何方法可以在活动片段和对话框之间使用共享元素我有一个包含对话框的项目我想在 Activity 视图层次结构中的 ImageView 到 GalleryDialog 中的相关 ImageView 之间进行转换我搜索了一
具有核心列表内容的动画页面的聚合物核心过渡

继从这个问题我进一步发展了演示消息示例尝试使用核心列表在两个页面之间创建页面转换我正在努力实现以下目标每个页面上的 fab 上的英雄过渡两个页面上的幻灯片过渡方向相反无论您在列表中滚动到何处这都会按预期工作请注意单击 fab
在 tel:// 链接中插入暂停

我正在创建一个供 iOS 用户使用的 Web 应用程序但数据库中的某些电话号码需要添加扩展名有什么办法可以修改tel URL 方案是否包含暂停或等待提前致谢您可以使用 p 暂停例如电话 12345678 123 将更改为 p
SaveFileDialog 上的 DialogResult.OK 不起作用

我尝试当我按下保存时SaveFileDialog我做某事我尝试修复但总是出错 SaveFileDialog dlg2 new SaveFileDialog dlg2 Filter xml xml dlg2 DefaultExt xm
Oracle C# 中的参数化查询

string sqlCmd SELECT r row id AS resp id r name AS resp name FROM srb s resp r srb s per resp pr srb s contact c srb s u
在没有 Maven 或 ANT 的情况下以编程方式将 WsImport 与 JAXB 插件结合使用？

我在用WsImport从远程 WSDL 文件生成一些 Java 源代码请注意这是来自常规 Scala 项目内部即它不是在 Maven 或 Ant 构建中完成的 import com sun tools ws WsImport def
同时应用渐变背景颜色和图像

是否可以同时将背景图像和背景颜色应用于文本字段我想要实现的是在文本字段的右上角显示一个图标还使用样式使该文本字段有点渐变 background moz linear gradient center bottom white D6E5F
如何将“子行”插入 Wicket 数据表

我有一个AjaxFallbackDefaultDataTable每个测试结果包含一行测试结果可能会附有注释需要在测试结果下方显着位置显示希望给出类似于以下的表格 Test Result Appraisal 1 20 0 PASS 2
R Shiny - 如何在更新依赖反应图之前更新依赖反应 selectInput

应用程序结构我有一个闪亮的应用程序具有典型的侧边栏面板主面板结构侧边栏面板侧边栏面板中有多个 selectInput 小部件其中每个 selectInput 中的选择取决于前一个 selectInput 的选择值即用户从
Sequelize：错误：错误：表1未与表2关联

我正在尝试使用sequelize 创建以下关联但我不断收到以下错误错误错误客户未与订单关联根据我在文档中发现的内容我有双向关联我对问题可能是什么感到困惑因为当我查看数据库表时我可以看到外键对于此示例我尝试提取与特定订单
Jenkins 无法启动硒测试（等待创建配置文件超时）

Jenkins 无法启动 Selenium 测试 ubuntu 错误 11 26 24 652 信息启动 org openqa jetty jetty Server ab50cd 11 26 24 738 信息正在准备 Firefox
Google 趋势配额限制

我试图从 Google 趋势中提取数据仅尝试了 2 次就收到您已达到每日限制错误有什么办法可以解决这个问题吗我知道 Google API 项目有特殊的配额限制但 Google Trends 没有 API 我还读到我们可能需要向它
查找 >2 个文件中的共同元素

我有三个文件如下所示文件1 txt aba 0 0 aba 0 0 1 abc 0 1 abd 1 1 xxx 0 0 文件2 txt xyz 0 0 aba 0 0 0 0 aba 0 0 0 1 xxx 0 0 abc 1 1 文件

查找 >2 个文件中的共同元素

查找 >2 个文件中的共同元素 的相关文章

随机推荐

热门标签

查找 >2 个文件中的共同元素的相关文章