如何使用正则表达式将缩写与其含义相匹配？

2024-01-06

我正在寻找与以下字符串匹配的正则表达式模式：

一些示例文本（SET）演示了我正在寻找的内容。能源系统模型（ESM）用于寻找特定的最佳值（SCO）。有人说计算机系统（CUST）很酷。夏天应该首选户外比赛（OUTS）。

我的目标是匹配以下内容：

Some example text (SET)
Energy system models (ESM)
specific optima (SCO)
computer systems (CUST)
outside (OUTS)

重要的是，它并不总是恰好三个单词及其第一个字母。有时用于缩写的字母仅包含在前面的单词中。这就是为什么我开始研究positive lookbehind。然而，它受到长度的限制，可以通过将其与positive lookahead。到目前为止，我还无法想出一个可靠的解决方案。

到目前为止我尝试过的：

(\b[\w -]+?)\((([A-Z])(?<=(?=.*?\3))(?:[A-Z]){1,4})\)

这工作得很好，但匹配项包含太多单词：

Some example text (SET)
Energy system models (ESM)
are used to find specific optima (SCO)
Some say Computer systems (CUST)
In the summer playing outside (OUTS)

我还尝试在第一组的开头使用缩写的第一个字母的引用。但这根本不起作用。

我看过但没有发现有用的东西：

用于捕获缩写的正则表达式 https://stackoverflow.com/questions/60658473/regex-for-catching-abbreviations
使用 Python 正则表达式匹配首字母缩略词及其含义 https://stackoverflow.com/questions/40622523/match-acronym-and-their-meaning-with-python-regex

有用的资源：

向后看的东西 https://stackoverflow.com/questions/3796436/whats-the-technical-reason-for-lookbehind-assertion-must-be-fixed-length-in-r
一般来说，关于环视的东西 https://www.rexegg.com/regex-lookarounds.html

我建议使用

import re
def contains_abbrev(abbrev, text):
    text = text.lower()
    if not abbrev.isupper():
        return False
    cnt = 0
    for c in abbrev.lower():
        if text.find(c) > -1:
            text = text[text.find(c):]
            cnt += 1
            continue
    return cnt == len(abbrev)
 
text= "Some example text (SET) that demonstrates what I'm looking for. Energy system models (ESM) are used to find specific optima (SCO). Some say computer systems (CUST) are cool. In the summer playing outside (OUTS) should be preferred. Stupid example(s) Stupid example(S) Not stupid example (NSEMPLE), bad example (Bexle)"
abbrev_rx = r'\b(([A-Z])\w*(?:\s+\w+)*?)\s*\((\2[A-Z]*)\)'
print( [x.group() for x in re.finditer(abbrev_rx, text, re.I) if contains_abbrev(x.group(3), x.group(1))] )

See the Python演示 https://ideone.com/oKjTRB.

使用的正则表达式是

(?i)\b(([A-Z])\w*(?:\s+\w+)*?)\s*\((\2[A-Z]*)\)

See the 正则表达式演示 https://regex101.com/r/yMs7TF/1。细节：

\b- 字边界
(([A-Z])\w*(?:\s+\w+)*?)- 第 1 组（text)：捕获到第 2 组的 ASCII 字母，然后是 0+ 个单词字符，后跟任何 0 次或多次出现的 1+ 个空格，后跟 1+ 个单词字符，尽可能少
\s*- 0+ 空格
\( - a ( char
(\2[A-Z]*)- 第 3 组（abbrev)：与第 2 组中的值相同，然后是 0 个或多个 ASCII 字母
\) - a ) char.

一旦有比赛，第 3 组将被传递为abbrev第 1 组已通过text to the contains_abbrev(abbrev, text)方法，这确保了abbrev是一个大写字符串并且其中的字符abbrev按照与中相同的顺序进行text，并且都存在于text.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用正则表达式将缩写与其含义相匹配？的相关文章

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
tkinter 上的“NoneType”对象没有属性“get”错误[重复]

这个问题在这里已经有答案了我最近开始使用 python 3 6 进行编码tkinter并尝试创建我自己的项目repl it 该项目是一个简单的交互式待办事项列表但是我陷入困境并且无法使该功能正常工作该函数只是简单地获取条目并将其添加到
Django 和 AWS 简单电子邮件服务 [重复]

这个问题在这里已经有答案了我正在尝试启动并运行 django 站点并且正在尝试启用 django 的标准密码重置服务我的网站由 AWS EC2 托管因此我想将 AWS SES 用于我的电子邮件服务但是我无法使 smtp 连接正常
点击后 Dash DropDown 关闭

我不希望下拉菜单在选择值后关闭我希望它在我的页面上保持打开状态我正在使用 dcc Dropdown dcc Dropdown id job type options self options placeholder Select one
PRAW 出现 SSLError？

我正在尝试开始使用 PRAW 但在使用 login 时遇到问题我有以下代码 import praw r praw Reddit This is a test bot r login myRedditUsername password 我收
如何让 Discord 机器人显示“机器人正在输入...”状态？

所以如果我有一个像这样的长命令 bot command pass context True async def longCommand ctx typing status sleep 10 bot say Done 不幸的是在文档或此处没
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
有没有类似RegexBuddy的在线正则表达式分析器？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个在线实用程序可以美化正则表达式并向其添加解释性注释有吗我喜欢在线工具 http regexr com http reg
如何在Python中比较列表列表中的元素以及比较列表列表中的键？

我有以下顺序 seq ATG ATG ATG ATG GAC GAT GAA CCT GCC GCG GCA GCT 这是一个字典键用于存储每个密码子的氨基酸值三联碱基例如ATG GCT etc aminoacid TTT F TTC
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
为什么Python 3中实例方法可以作为类方法调用？

考虑下面的类 class Foo object def bar self print self 在Python 2中 2 7 13 调用bar 作为类方法引发异常 gt gt gt Foo bar hello Traceback most
尝试安装 python 包 Box2D 时出错

我正在尝试通过 pip 安装 Box2D 软件包的版本 2 3 10 但是 pip 返回以下错误消息 ERROR Could not find a version that satisfies the requirement Box2D 2
Python 日志记录 - 如何检查记录器是否为空

我刚刚在我的应用程序中实现了日志记录我想知道是否有一种方法可以检查记录器是否为空我的想法是在我的脚本中设置两个处理程序一个用于带水平仪的控制台WARNING 一个用于带级别的文件DEBUG 在脚本的最后我需要检查是否CONSOLE记
Python 宏：用例？

如果 Python 有一个类似于 Lisp Scheme 的宏工具比如元Python https code google com p metapython 你会如何使用它如果您是一名 Lisp Scheme 程序员您会使用宏来做什么
Django - 从时间戳获取不同的日期

我正在尝试按日期过滤用户但直到我可以找到数据库中用户的第一个和最后一个日期为止虽然我可以让我的脚本稍后过滤掉重复项但我想从一开始就使用 Django 来完成此操作distinct因为它显着减少我试过 User objects val
如何使 cx-oracle 将查询结果绑定到字典而不是元组？

这是我的代码我想找到一种方法将查询结果作为字典列表而不是元组列表返回看起来 cx oracle 通过部分文档讨论绑定来支持这一点虽然我不知道它是如何工作的 def connect dsn cx Oracle makedsn hos
无法从源 pylance 解析导入烧瓶

我正在学习 Python 课程的一部分是使用 Flask 设置网络服务器我按照 Flask 安装文档执行了步骤由于某种原因 flask 模块带有下划线如下所示当我将鼠标悬停时我会得到如下附加信息无法从源 pylance 解析导入
RegEx 使用 match() 在 JavaScript 中提取字符串数组

我正在尝试使用string match 在 javascript 中使用正则表达式来提取字符串数组这是一个示例字符串 CREATE TABLE listings listing id INTEGER UNIQUE state TEXT t
两边带有感叹号的正则表达式 ('!\d!')

我见过正则表达式 d PHP 内部preg match功能这到底是什么来自PHP PCRE 文档 http php net manual en regexp reference delimiters php 使用 PCRE 函数时要求
我收到错误：rest_framework.request.WrappedAttributeError：'CSRFCheck'对象没有属性'process_request'

urls py from django conf urls import url from django contrib import admin from django conf import settings from django c

随机推荐

结合 geojson 和 json 制作传单

我有一张带有 GeoJson 图层的 Leaflet 地图 var objJson https raw githubusercontent com salucci Leaflet Teste master BrasilNovo json g
如何替换已弃用的 android.support.v4.app.ActionBarDrawerToggle

昨天 17 10 2014 我更新了 Android SDK 并support library v4 jar我的应用程序现在我收到与以下内容相关的弃用警告ActionBarDrawerToggle 阅读文档 https developer
什么时候使用vtable？

vtable 仅用于虚拟函数查找还是也用于普通成员函数查找从技术上讲这是一个实现细节 C 标准没有提及 vtable 或 vptr 但通常情况下编译器只会在多态意义上即通过指向基类的指针引用调用成员函数时才会选择使用 vtab
加快 Firebase 存储下载速度

我正在尝试从 Firebase 存储中提取视频并将其放入我的 Android 应用程序上的幻灯片中但视频需要很长时间才能加载有谁有任何替代方案或方法来加快数据下载速度您可以将文件存储在区域存储中例如 us east1 请参阅http
如何仅显示一页以上的报表的第 x 页（共 y 页）

我正在使用 jasper reports 4 5 0 我正在使用这个碧玉生成不同格式的报告我想在我的报告中显示第 X 页共 Y 页所以我使用 iReport 提供的页码文本字段该字段在调色板中可用它显示所有报告中的页码甚至是单页
从更新站点下载 eclipse 插件的工具

我需要在未连接到 Internet 的计算机上安装 eclipse 插件但找不到用于本地安装的 dist 是否有一个工具可以从更新站点下载插件并创建本地安装存档或本地更新站点有传言说你可以用 eclipse 来做到这一点但我找不到任
如何更改 UITextField 上清除按钮的色调颜色

我的 UITextfield 上有一个自动生成的清除按钮具有默认的蓝色色调我无法将色调颜色更改为白色我尝试修改故事板和代码但没有成功并且我不想使用自定义图像如何在不使用自定义图像的情况下更改默认的透明按钮色调颜色干得好 Tint
HTML.fromHTML - Android 中的 TagHandler

我有一个 TextView 我想将 HTML 设置为 HTML fromHTML 但我想过滤掉所有 img 带有标签处理程序的标签我想将所有链接 src 保存在列表数组中那可能吗 Thanks 是的这是可能的您可以使用jsoup h
如何确定电子邮件地址是 Microsoft“工作或学校”帐户还是 Microsoft 帐户

我想在 Azure 多租户环境中对 Microsoft 帐户和工作或学校帐户进行身份验证每种身份验证类型需要不同的请求如果我尝试针对工作或学校请求以 Microsoft 帐户身份登录则登录将在 Microsoft 登录时失败
在 api 27、28、29 中混淆应用程序时，工作管理器不会运行

我有一个每 15 分钟运行一次的定期任务当混淆应用程序时如果应用程序从后台被终止工作管理器将不起作用测试设备一加7T 诺基亚5 Google Pixel 2模拟器仅当应用程序位于前台或后台时工作管理器才会执行禁用 progu
如何在混合（C#/C++）调试中设置数据断点？

我用 C 启动程序然后调用一些非托管 C 当我在非托管 C 中中断一行时新数据断点菜单项呈灰色有没有办法解决所以要做到这一点我必须将非托管dll设置为启动项目将托管程序设置为启动命令将调试模式设置为Native 中断执行或
使用有关 WooCommerce 用户创建的生成密码发送电子邮件通知

在 WooCommerce 中使用下面的代码我创建新的 WP User 其中随机密码并将用户角色设置为客户我想在购买时自动创建帐户然后我用WC Emails将登录详细信息发送给买家在这种情况下我需要纯密码但我真的不知道为什么附
如何锁定 SVN 主干（除了来自分支的合并）？

我想阻止开发人员直接在主干上工作我的目标是强制所有开发人员离开主干并在自己的分支上工作直到 CI 测试通过然后他们必须从主干合并到分支以获取最新更改运行并通过测试然后再合并回主干这种 SVN 使用方式有什么规则吗限制主干提
“grep”命令的退出状态代码

The grep http linux die net man 1 grep手动在退出状态部分报告 EXIT STATUS The exit status is 0 if selected lines are found and 1 if
CTE 的意外结果

我创建了一个使用多个 CTE 的复杂流程主要用于递归分层工作在小样本数据集上一切都按预期进行但是当我将代码应用于大数据集时我收到了意外且错误的结果我想我已经将范围缩小到了 CTE 递归 CTE 是在几个早期 CTE 中处理的
在 Datalab 中查询 Hive 表时出现问题

我已经创建了一个 dataproc 集群其中包含更新的 init 操作来安装 datalab 一切正常除了当我从 Datalab 笔记本查询 Hive 表时我遇到了 hc sql select from invoices limit
Chrome 扩展：点击编辑当前网址，然后重定向到编辑后的网址

我是一名心理学学生我经常阅读论文大学图书馆提供数据库的访问但我每次都需要使用图书馆搜索引擎并登录很烦人我找到了一种避免跳转页面的方法方法如下我在Google Scholar中找到一篇论文后在目标数据库地址末尾添加 ezp l
Symfony2 SonataAdminBundle 密码字段加密

我有 FOSUserBundle 来管理我的用户 SonataAdminBundle 来管理我的网站我有一个问题每当我尝试更改添加任何用户的密码时密码都不会编码到sha512 但是当用户在 fosuserbundle 注册页面中注册
SQLite查询：获取一行的所有列（android）？

这是架构 SQL查询是从unjdat中选择其中col 1 myWord 即我想显示 col 1 为的行的所有列myWord int i String temp words new ArrayList
如何使用正则表达式将缩写与其含义相匹配？

我正在寻找与以下字符串匹配的正则表达式模式一些示例文本 SET 演示了我正在寻找的内容能源系统模型 ESM 用于寻找特定的最佳值 SCO 有人说计算机系统 CUST 很酷夏天应该首选户外比赛 OUTS 我的目标是匹配以下内容 Some

如何使用正则表达式将缩写与其含义相匹配？

如何使用正则表达式将缩写与其含义相匹配？ 的相关文章

随机推荐

热门标签

如何使用正则表达式将缩写与其含义相匹配？的相关文章