从 Python 中编译的正则表达式中提取命名组正则表达式模式

2024-05-09

我有一个 Python 正则表达式，其中包含多个命名组。但是，如果先前的组已匹配，则可能会错过与一组匹配的模式，因为似乎不允许重叠。举个例子：

import re
myText = 'sgasgAAAaoasgosaegnsBBBausgisego'
myRegex = re.compile('(?P<short>(?:AAA))|(?P<long>(?:AAA.*BBB))')

x = re.findall(myRegex,myText)
print(x)

产生输出：

[('AAA', '')]

“长”组未找到匹配项，因为“AAA”在为前面的“短”组查找匹配项时已用完。

我试图找到一种允许重叠的方法但失败了。作为替代方案，我一直在寻找一种单独运行每个命名组的方法。像下面这样：

for g in myRegex.groupindex.keys():
    match = re.findall(***regex_for_named_group_g***,myText)

是否可以提取每个命名组的正则表达式？

最终，我想生成一个字典输出（或类似的），例如：

{'short':'AAA',
 'long':'AAAaoasgosaegnsBBB'}

任何和所有建议将不胜感激。

确实似乎没有更好的方法来做到这一点，但这里有另一种方法，类似于这个另一个答案 https://stackoverflow.com/a/48858806/9200529但稍微简单一些。它将起作用，前提是：a) 您的模式始终形成为一系列由管道分隔的命名组，并且 b) 命名组模式从不包含命名组本身。

如果您对每种模式的所有匹配感兴趣，以下将是我的方法。论点为re.split寻找一个文字管道，后跟(?=<，命名组的开头。它编译每个子模式并使用groupindex属性来提取名称。

def nameToMatches(pattern, string):
    result = dict()
    for subpattern in re.split('\|(?=\(\?P<)', pattern):
        rx = re.compile(subpattern)
        name = list(rx.groupindex)[0]
        result[name] = rx.findall(string)
    return result

根据您给定的文本和模式，返回{'long': ['AAAaoasgosaegnsBBB'], 'short': ['AAA']}。根本不匹配的模式的值将是一个空列表。

如果您只想每个模式匹配一次，您可以使其变得更简单：

def nameToMatch(pattern, string):
    result = dict()
    for subpattern in re.split('\|(?=\(\?P<)', pattern):
        match = re.search(subpattern, string)
        if match:
            result.update(match.groupdict())
    return result

这给出了{'long': 'AAAaoasgosaegnsBBB', 'short': 'AAA'}为了你的给定。如果指定的组之一根本不匹配，则该组将不会出现在字典中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python3x

从 Python 中编译的正则表达式中提取命名组正则表达式模式的相关文章

让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
如何检查给定的数字是否是2的幂？

下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
正则表达式提取大括号之间的文本

我正在尝试提取 PHP 中花括号之间的文本例如欢迎 user first name 使用 site 版本 1 5 您的用户名是 user username 您目前的声誉是 user reputation name 我用过在某些情况下
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
根据标签位置计算 Pandas DataFrame 的索引

我正在尝试计算标签的索引Pandas https pandas pydata org DataFrame在每一列中基本上我有以下内容DataFrame d col1 label1 label2 label3 col2 label2 lab
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
在 Google 表格中批量查找并替换正则表达式

是否有函数脚本或插件可以将大量正则表达式替换应用于 Google 表格中的一系列数据我有一张包含地址列表的工作表另一张工作表在两列中包含几十对正则表达式例如 St 和 Street 我想替换地址中第一列短语的所有实例列出另一个中相应
混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
基于 Web 请求在 Airflow 上运行作业

我想知道是否可以在通过 HTTP 收到请求时执行气流任务我对 Airflow 的调度部分不感兴趣我只是想用它来代替芹菜因此示例操作如下所示用户提交一份表格请求某些报告后端接收请求并向用户发送请求已收到的通知然后后端使用 Ai
从 HDF5 文件中删除信息

我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指
如何在Python中捕获打印机事件

我想在打印机开始打印时捕获信号如果你告诉我如何获取将要打印的文档的路径那就太好了 pywin32print看起来很有用但不知道怎么用要获得新打印作业的通知您可以使用FindFirstPrinterChangeNotificatio

随机推荐

为什么某些 Git 分支名称中包含斜杠？

我正在阅读本教程https www atlassian com git tutorials syncing git fetch https www atlassian com git tutorials syncing git fetch
如何忽略Git中以数字开头的文件？

在某个文件夹中我有名为foo jpg bar png等等我想将它们保留在版本控制中除了那些命名为1 baz png 2 zaz jpg等因为它们实际上是生成的我应该添加什么条目 gitignore 正则表达式如 0 9 似乎不起作
Activity 上的 OnTouchListener 从不调用

我使用了这段代码但是当我在运行时单击活动时它永远不会在 OnTouch 方法中命中有人可以指导我我做错了什么吗我需要设置此活动的内容视图吗实际上我想要用户在执行过程中触摸的活动的坐标 public class TouchTestA
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
有时 Properties.load() 会跳过行

在以下情况下 Properties load 会跳过 InputStream 的第二行这是 Java 的错误还是正常行为 public class PropTest public static void main String args
PHP strtotime返回Mysql UNIX_TIMESTAMP的不同值

我在 stackoverflow 上搜索过帖子发现了一些类似的帖子但我认为这是一篇不同的帖子我的 PHP 和 Mysql 服务器的时区全部设置为 UTC 在表中我使用时间戳字段值为 2010 11 08 02 54 15 我使用这样
Android 图标与徽标

The
套接字到底是什么？为什么我们不能使用套接字而不是 HTTP？

套接字只是两台机器之间的连接吗如果可以建立套接字为什么我们还要使用 HTTP 连接呢我认为这是一个关于套接字和 HTTP 连接之间关系的非常普遍的问题我还假设 HTTPConnection 并不指涉及特定 API 运行时环境的内容
Spring Boot如何加入自定义查询

我需要创建一个端点该端点按州返回人口普查数据以及城市列表我目前使用两个端点来获取此数据目前回应自定义查询一 censusByState id 1 code 11 name Rond nia statePopulation 18152
CKEditor TypeError：c[a] 在 CodeIgniter 中未定义

我正在尝试在基于 codeigniter 的网站中安装 CKEditor 并且我已按照本教程进行操作 Codeigniter 教程中的 CKEditor http nukium com developpement php framework
任务中的 ConEmu 命令

我试图在 ConEmu 中获取一个任务来打开多个控制台并在每个控制台打开时运行一个类似批处理的脚本例如打开 Git Bash 将控制台命名为 X 将当前目录设置为 Y 打开另一个 Git Bash 并运行一组命令例如 cd A B
在视图的 ng-animate 期间，“离开”视图仍然占用空间，而“进入”视图正在动画化

我正在使用 AngularJS 1 1 5 并尝试使用 daneden 的 animate css 执行 ng animate 指令我有几个使用路由设置的视图我正在使用 Twitter Bootstrap 3 RC1 这是 ng vie
适用于非 SelfAsserted 技术配置文件的 Azure AD B2C 验证配置文件

从测试来看验证技术配置文件仅在添加到 SelfAssserted 技术配置文件时才会使用例如以下内容
从可组合项访问引用值

这是我的 Vue3 应用程序代码
在中断时获取 current->pid

我正在Linux调度程序上写一些东西我需要知道在我的中断到来之前哪个进程正在运行当前的结构可用吗如果我在中断处理程序中执行 current gt pid 我是否可以获得我中断的进程的 pid 你可以 current gt pid存在并
Rails 建模：将 HABTM 转换为 has_many :through

我正在现有的 Rails 站点上进行维护工作并且遇到了一些由多对多关联引起的问题看起来该网站最初是使用has and belongs to many对于一些业务逻辑变得更加复杂的关系所以我需要使用has many through而是支
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
防止从 SSMS 导出的文件中受影响的行条目

我怎样才能防止这样的条目 123456 rows affected 在文件末尾导出的文本文件中似乎没有找到选项谢谢你可以使用 SET NOCOUNT ON 不设置计数 https learn microsoft com en us s
如何在 SQL 中的时区中使用“America/New_York”

我有这段代码在 SQL 中运行良好但是我想使用不同的时区格式例如 America New York 代替 US Eastern Standard Time SELECT TODATETIMEOFFSET CAST CURRENT TIM
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego

从 Python 中编译的正则表达式中提取命名组正则表达式模式

从 Python 中编译的正则表达式中提取命名组正则表达式模式 的相关文章

随机推荐

热门标签

从 Python 中编译的正则表达式中提取命名组正则表达式模式的相关文章