将正则表达式应用于子字符串而不使用字符串切片

2024-01-09

我想在较大的字符串中搜索正则表达式匹配从某个位置开始, and 不使用字符串切片.

我的背景是我想迭代地搜索字符串以查找各种正则表达式的匹配项。 Python 中的一个自然解决方案是跟踪字符串中的当前位置并使用例如

re.match(regex, largeString[pos:])

循环中。但对于非常大的字符串（~ 1MB）字符串切片，如下所示largeString[pos:]变得昂贵。我正在寻找一种方法来解决这个问题。

旁注：有趣的是，在一个利基市场Python 文档 http://docs.python.org/library/re.html#matching-vs-searching，它谈论一个可选的pos匹配函数的参数（这正是我想要的），函数本身找不到它:-)。

带有 pos 和 endpos 参数的变体仅作为正则表达式对象的成员存在。尝试这个：

import re
pattern = re.compile("match here")
input = "don't match here, but do match here"
start = input.find(",")
print pattern.search(input, start).span()

... 输出(25, 35)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

将正则表达式应用于子字符串而不使用字符串切片的相关文章

Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
用于从 Open3.popen3 标准输出中提取值的正则表达式

如何获取外部命令的输出并从中提取值我有这样的事情 stdin stdout stderr wait thr Open3 popen3 path foobar configfile if exit 0 wait thr value to s
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p

随机推荐

如何使用 Java 获取 Linux 中的总磁盘空间？

我能够获得可用磁盘空间我如何获得总磁盘空间我的代码是 import java io IOException import org apache commons io FileSystemUtils public class DiskSp
此 linq 查询是否在 for-each 循环的每次迭代上运行？

在关于 SO 的另一个问题中我用如下代码回答并得到一条评论即 LINQ 查询可能在 for each 的每次迭代中进行评估真的吗我知道 LINQ 查询在其项目被评估之前不会执行因此这种迭代结果的方式似乎可以使其在每次迭代中运行
SQL / PHP PDO 选择随机行

我希望能够随机选择一名未参加考试的学生 N 并回显姓名和主题我怎样才能实现这个目标 query db gt prepare SELECT name FROM exams WHERE faced array array N query gt
使用 GSON 解析 JSON

我在使用 GSON 时遇到了一些问题主要是从 JSON 反序列化为 POJO 我有以下 JSON events event id 628374485 title Developing for the Windows Phone event
无法绑定 GridView 列中的项目列表

我正在构建一个应用程序向用户显示系列比赛的实时结果我设置数据结构如下 Countries gt Leagues gt Matches特别是在 ViewModel 中我创建了一个可观察的国家地区集合如下所示 private Obse
Silverlight - 在 XAML 中而不是在构造函数中设置 DataContext？

如何在 XAML 中而不是在构造函数中设置 Grid 上的 DataContext 以下是我在构造函数中执行此操作的方法 LayoutRoot 是 XAML 中定义的 XAML 网格 this LayoutRoot DataContext
使用共享静态 WCF 代理客户端有哪些陷阱？

我正在考虑将共享读取静态 WCF 代理客户端用于高吞吐量应用程序我相信这样做可以提高性能但我还没有对此进行基准测试这个想法有一些严重的缺陷吗从我的研究中我可以看到存在处理故障状态的问题目前尚不清楚该状态对其他待处理请求的影响流
Django/Python - 每秒更新数据库

我正在努力用 Django 和 Python 创建一个基于浏览器的游戏并且我正在尝试为我遇到的问题之一找到解决方案本质上每一秒都需要更新多个用户变量例如有一个货币变量应该每秒增加一定数量随着你的升级和所有这些爵士乐而逐渐变大我
在 Kotlin 中编写 React Native Android 模块？

React Native 文档提供了吐司模块 https facebook github io react native docs native modules android html用java编写的例子同样的例子在 Kotlin 中是
JSON和Unity，在游戏上显示图像[重复]

这个问题在这里已经有答案了我有一个测验游戏应用程序并且我有游戏上的图像我想显示图像文本显示得很好但图像却不是这是我的 JSON C 代码点击这里图片 https i stack imgur com AEaFB png 调用我的
为什么 Rails 不断发回 Set-Cookie 标头？

我遇到了弹性负载均衡器和清漆缓存的问题涉及 cookie 和会话在 Rails 和客户端之间混淆问题的一部分是 rails 几乎在每个请求上都添加了一个带有会话 ID 的 Set Cookie 标头如果客户端已经发送session i
谜题：在四个反射墙内，激光束可以通过多少种方式击中目标

你在一个长方形的房间里遇到敌人你只有一把激光武器房间里没有任何障碍物墙壁可以完全反射激光束然而激光只能传播一定的距离然后就变得毫无用处如果它撞到角落它会沿着它来的方向反射回来这就是谜题的进行方式您将获得自己所在位置和目标
对汇编中的指针和值感到困惑

我正在使用 MASM 汇编器让我们看一下这段简短的代码来自我读过的一本书 data var1 BYTE 10h code main proc mov esi OFFSET byteVal mov al esi AL 10h 我不太明白
如何计算多个纬度和经度之间的距离？

I want to calculate total distance between each points both contains lat and long these points are stored in local datab
如何创建 jQuery 价格滑块

我一直在尝试寻找教程但没有成功我并不是要求任何人为我做这项工作而是更多地看看是否有人知道任何有用的东西所以基本上我需要我的滑块具有最小值为零和动态设置的最大值获取动态值不是问题 0 o 200 所以中间的 o 将是可点击的滑动元素
使用 jQuery 从 URL 加载动态 div 内容

我有一个 jQuery 搜索脚本它使用选项卡让用户定义他们想要使用的搜索类型当用户搜索时会创建一个类似于的 URLtype query 当您重新加载页面时结果丢失的原因是它们不在文档源中它们后来被添加到 DOM 中我认为你有两
如何在c#中仅在耳机的左声道和仅在耳机的右声道播放声音？

我需要仅在耳机的左声道上播放声音 wav 文件而另一个文件仅在耳机的右声道上播放我是c 新手请帮我解决这个问题我认为仅 WPF 无法做到这一点但您可能想查看一下NAudio http naudio codeplex com
Blazor.net UI 不渲染任何内容

我正在开发 Blaor Net 应用程序参考了互联网上的许多帖子我面临的问题是我想将代码从 UI 移动到单独的文件以保持 razor 文件干净可读和可理解为此我将 UI 端 C 代码保存到一个从 BaseComponent 继
使用 OpenCV 洪水填充

我只是想使用洪水填充但它失败了而且我从未使用过它所以我认为我做错了什么 Mat flooded new Mat Point flood new Point 1 1 floodedmat Mat zeros myMat2 size Cv
将正则表达式应用于子字符串而不使用字符串切片

我想在较大的字符串中搜索正则表达式匹配从某个位置开始 and 不使用字符串切片我的背景是我想迭代地搜索字符串以查找各种正则表达式的匹配项 Python 中的一个自然解决方案是跟踪字符串中的当前位置并使用例如 re match regex

将正则表达式应用于子字符串而不使用字符串切片

将正则表达式应用于子字符串而不使用字符串切片 的相关文章

随机推荐

热门标签

将正则表达式应用于子字符串而不使用字符串切片的相关文章