尝试以下通用解决方案N文件。它将第一个文件的数据保存在哈希值中1
,并且对于下一个文件的每次命中,该值都会递增。最后,我比较每个键的值是否与处理的文件数相同,并仅打印那些匹配的文件。
awk '
FNR == NR { arr[$1,$2] = 1; next }
{ if ( arr[$1,$2] ) { arr[$1,$2]++ } }
END {
for ( key in arr ) {
if ( arr[key] != ARGC - 1 ) { continue }
split( key, key_arr, SUBSEP )
printf "%s %s\n", key_arr[1], key_arr[2]
}
}
' file{1..3}
它产生:
"xxx" 0
"aba" 0
EDIT添加打印整行的版本(请参阅注释)。我添加了另一个具有相同键的数组,用于保存该行,并在printf
功能。我对旧代码留下了评论。
awk '
##FNR == NR { arr[$1,$2] = 1; next }
FNR == NR { arr[$1,$2] = 1; line[$1,$2] = $0; next }
{ if ( arr[$1,$2] ) { arr[$1,$2]++ } }
END {
for ( key in arr ) {
if ( arr[key] != ARGC - 1 ) { continue }
##split( key, key_arr, SUBSEP )
##printf "%s %s\n", key_arr[1], key_arr[2]
printf "%s\n", line[ key ]
}
}
' file{1..3}
NEW EDIT(参见评论)添加一个使用相同键处理多行的版本。基本上我加入所有条目而不是只保存一个,改变line[$1,$2] = $0
with line[$1,$2] = line[$1,$2] ( line[$1,$2] ? SUBSEP : "" ) $0
。在打印时,我用分隔符进行反向分割(SUBSEP
变量)并打印每个条目。
awk '
FNR == NR {
arr[$1,$2] = 1
line[$1,$2] = line[$1,$2] ( line[$1,$2] ? SUBSEP : "" ) $0
next
}
FNR == 1 { delete found }
{ if ( arr[$1,$2] && ! found[$1,$2] ) { arr[$1,$2]++; found[$1,$2] = 1 } }
END {
num_files = ARGC -1
for ( key in arr ) {
if ( arr[key] < num_files ) { continue }
split( line[ key ], line_arr, SUBSEP )
for ( i = 1; i <= length( line_arr ); i++ ) {
printf "%s\n", line_arr[ i ]
}
}
}
' file{1..3}
编辑有问题的新数据后,会产生:
"xxx" 0 0
"aba" 0 0
"aba" 0 0 1