检查文件中是否存在所有多个字符串或正则表达式

2024-03-28

我想检查一下是否all我的字符串存在于文本文件中。它们可以存在于同一行或不同行上。部分匹配应该没问题。像这样：

...
string1
...
string2
...
string3
...
string1 string2
...
string1 string2 string3
...
string3 string1 string2
...
string2 string3
... and so on

在上面的示例中，我们可以用正则表达式代替字符串。

例如，以下code https://stackoverflow.com/a/4749368/6862601检查是否any我的字符串存在于文件中：

if grep -EFq "string1|string2|string3" file; then
  # there is at least one match
fi

如何检查是否all其中存在吗？因为我们只对presence在所有匹配项中，一旦所有字符串都匹配，我们就应该停止读取文件。

是否可以在不调用的情况下做到这一点grep多次（当输入文件很大或者我们有大量要匹配的字符串时不会缩放）或使用类似的工具awk or python?

另外，是否有一个可以轻松扩展正则表达式的字符串解决方案？

awk 是发明 grep、shell 等的人发明的工具，用于执行此类一般文本操作工作，因此不确定为什么您要尝试避免使用它。

如果您正在寻找简洁性，这里有 GNU awk 一行代码来完成您所要求的操作：

awk 'NR==FNR{a[$0];next} {for(s in a) if(!index($0,s)) exit 1}' strings RS='^$' file

这里还有很多其他信息和选项：

假设你真的在寻找字符串，那就是：

awk -v strings='string1 string2 string3' '
BEGIN {
    numStrings = split(strings,tmp)
    for (i in tmp) strs[tmp[i]]
}
numStrings == 0 { exit }
{
    for (str in strs) {
        if ( index($0,str) ) {
            delete strs[str]
            numStrings--
        }
    }
}
END { exit (numStrings ? 1 : 0) }
' file

一旦所有字符串匹配，上面的代码将停止读取文件。

如果您正在寻找正则表达式而不是字符串，那么使用 GNU awk 进行多字符 RS 并在 END 部分保留 $0 ，您可以这样做：

awk -v RS='^$' 'END{exit !(/regexp1/ && /regexp2/ && /regexp3/)}' file

实际上，即使它是字符串，你也可以这样做：

awk -v RS='^$' 'END{exit !(index($0,"string1") && index($0,"string2") && index($0,"string3"))}' file

上述 2 个 GNU awk 解决方案的主要问题是，像 @anubhava 的 GNU grep -P 解决方案一样，整个文件必须一次读入内存，而使用上面的第一个 awk 脚本，它可以在任何 awk 中工作任何 UNIX 机器上的任何 shell，一次仅存储一行输入。

我看到您在问题下添加了一条评论，表示您可能有数千个“模式”。假设您的意思是“字符串”，那么您可以从文件中读取它们，而不是将它们作为参数传递给脚本，例如使用用于多字符 RS 的 GNU awk 和每行一个搜索字符串的文件：

awk '
NR==FNR { strings[$0]; next }
{
    for (string in strings)
        if ( !index($0,string) )
            exit 1
}
' file_of_strings RS='^$' file_to_be_searched

对于正则表达式它是：

awk '
NR==FNR { regexps[$0]; next }
{
    for (regexp in regexps)
        if ( $0 !~ regexp )
            exit 1
}
' file_of_regexps RS='^$' file_to_be_searched

如果您没有 GNU awk 并且您的输入文件不包含 NUL 字符，那么您可以通过使用获得与上面相同的效果RS='\0'代替RS='^$'或者在读取变量时一次追加一行，然后在 END 部分处理该变量。

如果您的 file_to_be_searched 太大而无法放入内存，那么对于字符串来说就是这样：

awk '
NR==FNR { strings[$0]; numStrings=NR; next }
numStrings == 0 { exit }
{
    for (string in strings) {
        if ( index($0,string) ) {
            delete strings[string]
            numStrings--
        }
    }
}
END { exit (numStrings ? 1 : 0) }
' file_of_strings file_to_be_searched

以及正则表达式的等效项：

awk '
NR==FNR { regexps[$0]; numRegexps=NR; next }
numRegexps == 0 { exit }
{
    for (regexp in regexps) {
        if ( $0 ~ regexp ) {
            delete regexps[regexp]
            numRegexps--
        }
    }
}
END { exit (numRegexps ? 1 : 0) }
' file_of_regexps file_to_be_searched

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

检查文件中是否存在所有多个字符串或正则表达式的相关文章

awk 中的并行处理？

awk 逐行处理文件假设每行操作不依赖于其他行有没有办法让 awk 一次并行处理多行是否有其他文本处理工具可以自动利用并行性并更快地处理数据唯一尝试提供 awk 并行实现的 awk 实现是并行 awk http code googl
使用 netcat 提供包含图像的 HTTP 响应

我正在尝试使用 netcat 编写一个小型 HTTP 服务器对于纯文本文件这工作正常但当我尝试发送图片时浏览器仅显示损坏图像的图标我所做的就是提取所请求文件的 mime 类型和大小并将其发送给客户端我的示例图片的请求标头如下所
Google 自定义搜索引擎未给出预期的搜索结果

我一直在尝试创建一个新的谷歌自定义搜索引擎但是当我尝试一些查询时搜索引擎没有给我预期的搜索结果在某些查询上它工作正常但在其他查询上它说没有结果我尝试添加我想要搜索的网站的 URL 但是当我尝试搜索该页面的关键字时某些页面和
将文件列表传递给 grep

我有一个文件中的文件列表该列表很大并且文件名是非标准的这意味着有些文件名包含空格非 ascii 字符引号单引号所以通过那个huge不能选择将文件列表作为 grep 参数因为我不确定我不会超过linux允许的参数长度我想
更改grep命令的分隔符

我在用grep检测 a href xxxx something here a 当链接在输入中分成两行时这不起作用我想 grep 检查直到它检测到但现在它只是将输入输入到 grep 中直到检测到新行为止所以如果输入是这样的 a hre
在 shell 脚本中禁止输出到屏幕

你好我写了一个小脚本 usr bin ksh for i in DAT do awk BEGIN OFS FS 3 353 3 353861958962 print i gt gt i changed awk 3 353 i change
如何在 AOSP 中向预构建应用程序（无源代码）添加额外权限

我有一个没有特定 android 权限的应用程序例如android permission CHANGE CONFIGURATION 我没有它的源代码我正在开发 AOSP 我预先构建了这个应用程序如下所示将APK放入 device m
如何从纯文本中查找键值存储中的值

给定一个纯文本文件其中包含 FOO foo BAR bar BAZ baz 我们如何grep使用键获取值 Use a 向后看 https regex101 com r q3FNpe 1 grep Po lt FOO w file foo
如何区分 git 分支名称和提交哈希？

我有一个 bash 脚本它接受分支名称例如 master 或 feature foo 或提交哈希例如 1234abcd 的字符串我已签出存储库因此我可以调用 git 确定字符串是分支名称还是提交哈希的最佳方法是什么 bin bas
-bash: /usr/bin/virtualenvwrapper.sh: 没有这样的文件或目录

我无法弄清楚 shell 试图在哪里运行 usr bin virtualenvwrapper sh服务器登录时我希望 virtualenvwrapper 永久卸载而不仅仅是从 shell 实例中删除我以为我卸载了它pip uninst
从 Bash 调用的 Expect 脚本的退出状态代码

我制作了一个 Bash 脚本它使用 Expect 脚本来自动进行 ssh 登录该脚本连接到多个服务器并运行一些命令 bash 脚本会提示输入一次登录凭据我想合并一个功能其中如果第一个服务器登录失败脚本将终止以避免脚本检查下一个服
使用 bash 解析 ICS 文件

这是一个谷歌日历 ics 文件我每次都会下载它来检查是否有新的比赛事件被添加或更改并且我出现在IRC上我需要转换这样的文件 BEGIN VEVENT DTSTART 20160612T201000Z DTEND 20160612T21
如何使用 grep 查找文件夹内的单词？

在 Windows 中我会进行搜索以在文件夹中查找单词同样我想知道某个特定单词是否出现在包含许多子目录和文件的目录中我对 grep 语法的搜索显示我必须指定文件名即grep string filename Now I do not
Git：确定分支是否处于合并冲突状态

我正在编写一个 bash 脚本来进行一些自动化操作该脚本的一部分涉及导航到本地存储库切换到本地 master 分支然后拉取远程 master 以使用最新代码更新本地 master 分支有谁知道是否有一种方法可以以编程方式确定拉取是否
使用“touch”创建目录？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 1 在 A 目录中 find type f gt a txt 2 在 B 目录中 cat a txt while read FILENAMES do
使用 grep 仅打印上下文

Using grep http www computerhope com unix ugrep htm 您可以打印与您的搜索查询匹配的行添加一个 C选项将打印两行周围的上下文如下所示 gt grep C 2 lorem some con
如何使用AWK从文件中连续输出行

我有一个多行文件我想连续输出文件的某些行比如第一次从第1行打印到第5行下次打印第2行到第6行依此类推我发现 AWK 是一个非常有用的函数我尝试自己编写代码但它什么也没输出以下是我的代码 bin bash for n in
Shell 脚本对文件进行计数，然后删除最旧的文件

我是 shell 脚本新手所以我需要一些帮助我有一个充满备份的目录如果我有超过 10 个备份文件我想删除最旧的文件以便仅留下 10 个最新的备份文件到目前为止我知道如何计算文件数这看起来很简单但是如果计数超过 10 我该如
强制节点在 Windows 上使用 git bash

我有一个 package json 文件如下所示 name APP version 3 0 0 private true scripts start node app js test test dbLoad env db test tes
为什么 PS1 不更新 git 分支名称？

PS1 w git branch grep cut b 3 100 我按上面设置我的 PS1 但在我更改分支后它不会更新提示中的分支名称git checkout 或使用以下命令更改存储库cd 如何解决这个问题当反引号引用位被评估时PS1

随机推荐

如何提高轮廓精度？

我正在做一个使用 OpenCV 的项目我需要从高清照片中精确地裁剪出一些物体我使用四边形树将照片切成碎片然后计算每个四边形的同质性以确定物体的一部分是否在四边形中我根据四边形的同质性应用了一些具有不同阈值的 Canny 滤波器我希
何时使用 __() 和 esc_html_e？

谁能解释一下为什么我会使用 https developer wordpress org reference functions over esc html e https codex wordpress org Function Refer
Vim Supertab 插件在导航完成菜单时反转方向

当我通过 supertab 循环浏览完成选项列表时即通过按
Android 启动画面不显示

我的应用程序中的启动屏幕不显示仅显示白色背景然后它进入下一页我在 stackoverflow 中看到了其他类似的问题但它对我没有帮助飞溅 xml
emberjs 和 Foundation4

我正在尝试使用 emberjs 和 Foundation 4 现在使用 zepto 框架但一旦我将 emberjs 添加到我的 application js 中基础代码就停止工作包含的顺序有问题吗 require jquery req
Task.Run 在同一线程上继续，导致死锁

考虑以下我将同步等待的异步方法等一下我知道我知道这被认为是不好的做法导致死锁 https blog stephencleary com 2012 07 dont block on async code html 但我完全有意识的 ht
@Autowired 不在内部类中工作

我在内部类中有一个类是 Autowired 但是在执行时它会抛出空指针异常而在外部类中自动装配时它工作正常 class outer class inner Autowired private var somevar private pro
Matlab：提取矩阵的第N个元素，同时保持矩阵的原始顺序

我正在尝试设置一些代码来提取矩阵的某些元素并按照提取的顺序仅将这些值保留在另一个矩阵中示例如果我有一个随机 1X20 矩阵但只想要以 4 和 5 开头的每个 Nth 5 个元素我希望它构造一个仅包含 4 5 9 10 14 15
AppClassloader 和 SystemClassloader 之间的区别

我对这两个类加载器很困惑当谈论Java类加载器的层次结构时通常会提到引导类加载器和扩展类加载器以及第三类加载器系统类加载器或应用程序类加载器为了更准确我查了JDK的源码在班上Launcher 有代码 loader AppClas
D3.js（威尔金森型）点图示例

我已经搜索过但无法找到 D3 中点图的示例有谁知道这种类型的绘图已在任何基于 D3 构建的图表库中实现或者在基础 D3 中的示例需要明确的是点图与直方图类似只不过点彼此堆叠在一起而不是直方图的条形图在 R 中可以使用 gg
如何使用 Homebrew 将 Postgis 安装到 [email protected] 的 Keg 安装中？

我已经安装了电子邮件受保护 cdn cgi l email protection使用 Homebrew 1 2 到我的 OSX El Capitan 机器不幸的是在安装 Postgis 并执行 CREATE EXTENSION pos
在 Java 中将二进制数据从 URL 复制到文件，无需中间复制

我正在更新一些旧代码以从 URL 而不是从数据库获取一些二进制数据数据即将从数据库中移出并且可以通过 HTTP 访问数据库 API 似乎直接以原始字节数组形式提供数据并且相关代码使用 BufferedOutputStream 将此
我可以从任意异步任务访问 Http.Context.current() 吗？

我正在开发一个移动应用程序的后端该应用程序当前在 Play 2 1 1 上运行作为处理某些请求的一部分我们会发送推送通知发送推送通知的下游请求应该完全异步并且与移动客户端的原始请求响应分离我想访问Http Context cur
CondaEnvException：Pip 失败。尝试使用 .yml 文件在 conda 中创建环境时出现 pip 子进程错误

我正在尝试使用 yml 文件在 conda 中创建一个环境这是我运行过的命令 git clone https github com fastai fastai cd fastai conda env create f environmen
MySQL 和 GROUP_CONCAT() 最大长度

我在用着GROUP CONCAT 在 MySQL 查询中将多行转换为单个字符串但是该函数结果的最大长度为1024人物我很清楚我可以更改参数group concat max len增加此限制 SET SESSION group conc
为什么按钮元素的高度与具有相同高度属性的同级输入元素的高度不匹配？

我有以下内容 div style border solid 1px gray height 22px line height 22px display inline block Div div
Symfony3.3：使用标量参数自动装配控制器

我的控制器包含具有标量依赖性的操作 bugReportRecipient class DefaultController public function bugReportAction SwiftTwigMailer swiftTwigMa
Android 捕获新的拨出电话[重复]

这个问题在这里已经有答案了可能的重复 Android 重定向拨出电话 https stackoverflow com questions 3683494 android redirect outgoing calls 要求是将新拨打的号码
C++11（或Boost）system_error策略

我正在开发一个系统该系统旨在使用名为的类error code error condition and error category C 11 中新的 std 方案尽管目前我实际上正在使用 Boost 实现我读过克里斯科尔科夫的系列文
检查文件中是否存在所有多个字符串或正则表达式

我想检查一下是否all我的字符串存在于文本文件中它们可以存在于同一行或不同行上部分匹配应该没问题像这样 string1 string2 string3 string1 string2 string1 string2 string3 s

检查文件中是否存在所有多个字符串或正则表达式

检查文件中是否存在所有多个字符串或正则表达式 的相关文章

随机推荐

热门标签

检查文件中是否存在所有多个字符串或正则表达式的相关文章