如何通过正则表达式删除包含特定短语的文本块

2023-12-14

我有一些文本，如下所示：

12 12 obj
<<
Some content here
>>
endobj
12 13 obj
<<
Some content here with a email address that contains @mail.
>>
endobj
11 12 obj
<<
Some more content here
>>
endobj

我想删除任何文本块，从/d+ /d+ obj (e.g. 12 13 obj）到它们结束的点endobj其中它们包含特定的字符串，在本例中为@mail。不过，我在为此找到合适的正则表达式时遇到了一些麻烦。

我能够成功选择每个块(\d+\ \d+\ obj[\s\S]+?endobj)请参阅此处的测试：https://regex101.com/r/V4WAMl/5

但我无法让它按我想要的方式工作(\d+\ \d+\ obj[\s\S]+?@mail[\s\S]+?endobj)请参阅此处的测试：https://regex101.com/r/V4WAMl/4

我知道为什么会发生这种情况，但我不太确定如何解决它。我的理论是惰性修饰符是贪婪的，因为它最初不匹配，所以它停止在下一个匹配的修饰符处。我尝试了各种排除的组合^(?:*****)，但当我尝试时，这些似乎与任何内容都不匹配。

使用以下解决方案：

\d+ \d+ obj(?:(?!\d+ \d+ obj)[\s\S])*?@mail[\s\S]*?endobj
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^

See the 正则表达式演示

这里的要点是你需要匹配一个starting_delimiter，然后任何 char，0+ 出现次数尽可能少，不会启动starting_delimiter模式，然后匹配所需的模式，然后匹配尽可能少的任何 0+ 字符，直到trailing_pattern:

<START>(?:(?!<START>)[\s\S])*?<WORD>[\s\S]*?<END>

Details:

\d+ \d+ obj- 1 位或更多数字、空格、1+ 位数字、obj
(?:(?!\d+ \d+ obj)[\s\S])*?- 任何字符（[\s\S]）这不是一个起点\d+ \d+ obj序列（因此，正则表达式引擎将无法溢出到下一个\d+ \d+ obj块，您还可以添加一个|@mail负向前瞻的替代方案，但由于使用了惰性量词，因此没有必要），尽可能少（有关此构造的更多详细信息，请参阅这个帖子)
@mail- 文字子串@mail
[\s\S]*?- 任何 0+ 个字符，尽可能少
endobj- 文字子串。

Note您可以添加多行修饰符并添加^（一行的开头）和$（行尾）在必要时进行锚点以使匹配更安全、更精确（demo).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

如何通过正则表达式删除包含特定短语的文本块的相关文章

如何让“grep -zoP”单独显示每个匹配项？

我有一个此表格的文件 X this is the first match blabla X this is the second match and here we have some fluff 我想提取 X 之后和相同标记之间出现的所有
将字符串分解为标记，保持引用的子字符串完整

我不知道我在哪里看到它但是谁能告诉我如何使用 php 和 regex 来完成这个任务 this is a string that has quoted text inside 我希望能够像这样爆炸它 0 this 1 is 2 a 3 s
需要 RegEx 返回第一段或前 n 个单词

我正在寻找一个正则表达式来返回段落中的前 n 个单词或者如果该段落包含少于 n 个单词则返回完整的段落例如假设我最多需要前 7 个单词 p one two p
为什么这个没有特殊字符的正则表达式会匹配更长的字符串？

我正在使用此方法来尝试查找匹配项例如 Regex Match A2 TS OIL TS OIL RegexOptions IgnoreCase Success 我得到了真实的结果我很困惑我认为这应该返回 false 因为模式中没有特殊
如何在Matlab中打印带有千位分隔符的整数？

我想使用逗号作为千位分隔符将数字转换为字符串就像是 x 120501231 21 str sprintf 0 0f x 但随着效果 str 120 501 231 21 如果内置fprintf sprintf做不到我想可以使用正则表达式
由于重复捕获组而不是捕获重复组，正则表达式不匹配

我有以下正则表达式 A G A G 具有以下表达式 A BsCb 我期望 3 个匹配结果 A Bs Cb 但测试在https regex101 com https regex101 com 只给我最后一场比赛Cb 并告诉我重复捕获组只会捕获
bash 支持字边界正则表达式吗？

我试图在再次添加该单词之前匹配列表中是否存在该单词以避免重复我正在使用 bash 4 2 24 并尝试以下操作 foo bmyword b also foo
正则表达式替换混合数字+字符串

我想删除所有包含数字的单词示例 LW23 London W98 String 从上面的字符串中我唯一想保留的是 London String 这可以用正则表达式来完成吗我目前正在使用 Python 但 PHP 代码也很好 Thanks E
[Regex]::Replace() 和 -replace 有什么区别？

我明白了之间的区别 Replace and replace 但是什么是 replace and Regex Replace 我测试了以下两个代码但对我来说结果完全相同我还提到了 PowerShell Cookbook O reilly
在 Java 正则表达式中获取多个模式的重叠匹配

我有同样的问题这个链接 https stackoverflow com questions 18751486 matching one string multiple times using regex in java 但有多种模式我的正
Slim 3 - 斜杠作为路由参数的一部分

我需要使用可以包含斜杠的参数来编写 URL 例如经典的 hello username 路线默认情况下 hello Fabien将匹配此路线但不匹配 hello Fabien Kris 我想问你如何在 Slim 3 框架中做到这一点
选择前 n 个字符相等的行（MySQL）

我有一张带有玩家句柄的桌子如下所示 1 N Laka 2 N James 3 nor Brian 4 nor John 5 Player 2 6 Spectator 7 N Joe 从那里我想选择第一个 n 字符匹配的所有玩家但我不知道
Grep 和 Python

我需要一种通过 Unix 命令行中的正则表达式使用 grep 搜索文件的方法例如当我在命令行中输入 python pythonfile py RE file to be searched 我需要正则表达式 RE 在文件中搜索并打印出匹配
使用 posix shell 测试字符串中的正则表达式

如何测试字符串是否与特定字符串匹配正则表达式与基本无 bash 或任何其他 posix shell 脚本在 if 语句中您可以使用expr在 POSIX shell 中计算正则表达式的命令 s Abc expr s alpha 3 e
在 Javascript 中获取第一个数字出现后的子字符串

我正在尝试提取第一个数字之后并包括的字符 ABC 123SD gt 123SD 123 gt 123 123SD gt 123SD ABC gt 我当前的解决方案如下 var string1 ABC 123SD var firstDig
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
正则表达式查找字符串中的整数和小数

我有一个像这样的字符串 str1 12 ounces str2 1 5 ounces chopped 我想从字符串中获取金额无论它是否是小数 12 或 1 5 然后获取紧邻的前一个测量值盎司我能够使用一个非常基本的正则表达式来获取测量
与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
netsh 结果到 PowerShell 对象

我正在尝试与NETSH https ss64 com nt netsh html来自 PowerShell 我想看到这个命令的结果例如一个对象但是netsh返回一个字符串 netsh wlan show hostednetwork Ge
创建正则表达式匹配数组

在Java中我试图将所有正则表达式匹配返回到一个数组但似乎您只能检查模式是否匹配某些内容布尔值如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com

随机推荐

为什么在 PHP 中使用 ORM？

最近开始学习ORM 突然想到一个问题 PHP 应用程序主要使用 MySql 和 Sqlite 几乎所有 PHP 服务器都安装了它们那么是否值得在 PHP 中使用 ORM 来独立于数据库呢性能怎么样数据库独立性并不是使用 ORM 的主要
Jquery 自动完成 - 无结果消息

我希望自动完成在下拉列表中显示无结果如果没有找到结果则列出我的情况就像 JQuery 默认示例 function var availableTags ActionScript AppleScript Asp BASIC C C Cl
R Shiny：Vtree 图未使用 Shiny 渲染

如何在闪亮中使用 vtree 包尝试从服务器端渲染时没有出现所需的绘图我的代码 library shiny library vtree Define UI ui lt pageWithSidebar App title headerP
ColdFusion、MS Word 文档和希腊字符

我正在尝试从数据库动态构建 Word 文档我使用 CFC 进行查询处理我的努力是成功的但我只能复制英语文档但是我的应用程序使用希腊语当我尝试构建包含希腊字符的文档时输出如下所示我尝试了很多事情但没有任何效果这里奇怪的是当
以天:小时:分钟:秒格式计算 SQL 中的 DateDiff

我目前正在使用 SQL 脚本来计算两个日期之间的差异这将为我提供 DD HH MI SEC 格式的结果例子日期 1 2012 年 7 月 30 日下午 4 00 日期 2 2012 年 5 月 4 日上午 10 31 结果应该是 8
当 puppet-rspec 存在时，为什么我会收到“类不存在”？

我设置了一个新的木偶demo模块具有以下内容Gemfile当我运行一个简单的 puppet rspec 测试时它按预期工作 Gemfile source https rubygems org if puppetversion ENV PU
如何通过纯javascript中的每次点击来选择循环中下一个特定数量的元素？

我试图为每次单击下一步按钮选择接下来的 3 个项目 nextElementSiblings 项目长度为 14 直到项目 12 为止它都工作正常在项目 12 之后它检查接下来的 3 个项目但循环中只剩下 2 个项目十三个 13 十
C++ 中重载运算符->

我有一个智能指针类我想重载operator gt 提供它是为了方便这样我就可以直接访问智能指针中包含的类的成员我正在研究 Boost 在其中实现该运算符的方式shared ptr模板我注意到他们添加了一个断言在返回指针之前检查指针
将绘图映射到 FacetGrid 时的图例问题

我还在seaborn git repo 中提出了一个问题here 然而我很可能犯了一些基本错误而不是错误但我还没有弄清楚问题相同的颜色被分配给图例中的两个不同的值当我扩展到更多仅包含分配给色调的值的子集的图形时如何防止这种
从检测方法调用自己的类时出现 Java NoClassDefFoundError

我正在开发一套简单的 Java 代理工具包以帮助我也希望其他人排除 Java 应用程序的故障我想创建的代理之一是 JComponent getToolTipText 方法只需将鼠标光标悬停在任何 GUI 类上即可快速识别该类您可
Jackson XML：如何将空/空集合序列化为空节点

我正在使用 Jackson XML 2 8 9 不幸的是我找不到任何方法将空空集合序列化为空节点负责序列化为 XML 的方法 protected byte toXml final Collection
将 Base64 编码的图像上传到 Node.js 服务器不起作用

我正在使用 MEAN io 并且正在尝试上传 Base64 编码的图像客户端 AngularJS Image we re going to send it out var base64Image files i var file imag
在应用程序商店中转让 iPhone 应用程序的所有权

我和我的团队有一个应用程序我们很快就会将其提交到商店但我们知道我们将在不久的将来将该应用程序出售给另一家公司有人有将应用程序的所有权转移到另一个帐户的经验吗具体来说当我将应用程序出售给另一家公司时我们如何将应用程序移至他们的帐户
使用交替和分组结构

最初我想要一个正则表达式来解析月份数字首先我想出了以下正则表达式 1 9 1 1 012 它匹配任何正数表示它匹配该数字的高位数字即 1 gt 1 2 gt 2 9 gt 9 10 gt 1 19 gt 1 20 gt 2 为什么会这
如何在代码中复制 android:editable="false" ？

在布局中您可以设置EditText小部件不可通过android editable attribute 我怎样才能在代码中做到这一点我需要做EditText小部件可根据条件进行编辑 editText setFocusable false e
使用 DomDocument 将实体添加到 DOCTYPE

我正在尝试创建一个类似于这样的 XML 文档
禁用按钮时更改按钮的样式 ( IsEnabled=False )

我有一个 UWP 问题当按钮禁用时 IsEnabled False 如何更改按钮的样式 Microsoft added the VisualStateManager known from Silverlight to the Window
FastAPI - 如何在中间件中获取响应正文

有没有办法在中间件中获取响应内容以下代码是从here app middleware http async def add process time header request Request call next start time t
引导程序弹出窗口内的日期选择器[关闭]

Closed 这个问题需要调试细节目前不接受答案我在弹出框内放置了一个日期选择器日期选择器不工作有没有人这样做过 div class col sm 4 div
如何通过正则表达式删除包含特定短语的文本块

我有一些文本如下所示 12 12 obj lt lt Some content here gt gt endobj 12 13 obj lt lt Some content here with a email address that c

如何通过正则表达式删除包含特定短语的文本块

如何通过正则表达式删除包含特定短语的文本块 的相关文章

随机推荐

热门标签

如何通过正则表达式删除包含特定短语的文本块的相关文章