Python 中的正则表达式出乎意料地慢

2024-04-06

考虑下面的 Python 代码：

import timeit
import re

def one():
        any(s in mystring for s in ('foo', 'bar', 'hello'))

r = re.compile('(foo|bar|hello)')
def two():
        r.search(mystring)


mystring="hello"*1000
print([timeit.timeit(k, number=10000) for k in (one, two)])
mystring="goodbye"*1000
print([timeit.timeit(k, number=10000) for k in (one, two)])

基本上，我正在对两种方法进行基准测试来检查大字符串中多个子字符串之一是否存在。

我在这里得到的（Python 3.2.3）是这样的输出：

[0.36678314208984375, 0.03450202941894531]
[0.6672089099884033, 3.7519450187683105]

在第一种情况下，正则表达式很容易击败any表达式 - 正则表达式立即查找子字符串，而any在找到正确的子字符串之前必须检查整个字符串几次。

但是第二个例子中发生了什么？在子字符串不存在的情况下，正则表达式出奇地慢！这让我感到惊讶，因为理论上正则表达式只需要遍历字符串一次，而any表达式必须遍历字符串 3 次。这是怎么回事？我的正则表达式有问题吗？还是 Python 正则表达式在这种情况下速度很慢？

未来读者请注意

我认为正确的答案实际上是Python的字符串处理算法是really针对这种情况进行了优化，并且re模块实际上有点慢。我在下面写的内容是正确的，但可能与问题中的简单正则表达式无关。

原答案

显然这不是一个随机的侥幸 - Python 的re模块确实比较慢。看起来它在找不到匹配项时使用了递归回溯方法，而不是构建 DFA 并对其进行模拟。

即使正则表达式中没有反向引用，它也会使用回溯方法！

这意味着在最坏的情况下，Python 正则表达式需要指数时间，而不是线性时间！

这是一篇非常详细的论文，描述了这个问题：http://swtch.com/~rsc/regexp/regexp1.html http://swtch.com/~rsc/regexp/regexp1.html

I think this graph near the end summarizes it succinctly: graph of performance of various regular expression implementations, time vs. string length

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 中的正则表达式出乎意料地慢的相关文章

从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
grep 两个分隔符之间的子字符串

我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串例子 echo BeginMiddleEnd grep oP lt Begin End 问题是当我将这些脚本移植到运行的平台时busybox 融合的 g
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo

随机推荐

DATE 字段和 MONTH() YEAR() 函数上的 INDEX

日期日期时间列上的索引未针对 YEAR col MONTH col 函数进行优化是否仍然正确比尔卡文给出了相当明确的答案here http forums mysql com read php 115 86654 86654 msg 8
Chrome 控制台行为中的双美元 $$() 与美元符号 $()

在我们的项目中当 Chrome 控制台中一个美元符号使用与两个美元符号时有不同的功能 besides已知的区别是返回一个数组而返回第一个元素例如特定元素的选择器具有一美元和两美元查询 my class my attrib
是否可以在 django 管理命令中创建子解析器？

标题确实说明了一切但我目前有这个但它不起作用 class Command BaseCommand help Functions related to downloading parsing and indexing the conten
serverSideTranslations 不适用于动态路由

我在互联网上做了一些研究根据文档和其他答案我无法使其发挥作用所以现在我一无所知我有一个动态路线并翻译索引这在构建时不起作用路径是 user id index js export const getStaticPaths loca
如何使用 JavaScript 将数据从 HTML 表单发送到 Google Spreadsheet？

我正在尝试构建一个网络应用程序用于记录 Google 电子表格中表单的数据为了做到这一点我have使用 JavaScript JSON 或 AJAX 请求也可以但我cannot使用 Google Apps 脚本因为我需要用户继续使
Scala.2.10.1 的标准库还是 Akka？

我要使用Futures and Promises from scala concurrentScala 中的包2 10 1 我应该使用Akka反而 Akka future 和 Promise 在 2 10 中被移入 Scala 标准库所以
Hub、Spoke 和 ESB 之间的区别

我知道对此已经有一个很好的问题但它并没有真正回答我正在寻找的问题据我了解 1 两者都用作应用程序之间的中心焦点2 两者都可以在服务应用程序之间使用路由中介转换等但我真正能看到的唯一区别是中心辐射型通常有许多不同的格式进入中心
在react-native android应用程序中使用axios传递参数

我需要在react native中使用AXIOS传递一些参数但不知道应该如何使用AXIOS传递参数 I found 这个帖子 https stackoverflow com q 48223906 5306371有用但它不能完全满足我的问
如何以编程方式获取Google云运行API中的当前项目ID

我有一个容器化的 API 并在 cloud run 内运行如何获取正在执行云运行的当前项目 ID 我努力了我在日志中的 textpayload 中看到它但我不确定如何读取 post 函数内的 textpayload 我收到的 pub
DRF - 具有非模型 write_only 字段的 ModelSerializer

我有以下模型序列化器和视图我的目标是传递一个自定义字符串例如 referrer pid email af sub1 ui 1120 c xyz 在 POST 方法中下面的 RegisterViewSet 然后到 viewset se
是否有理由为连接池设置 maxIdle > maxActive ？

我刚刚学习连接池我想知道是否有任何理由设置maxIdle gt maxActive 这是我的理解空闲连接是已创建并等待使用的连接一旦客户端借用它它就会成为活动连接 minIdle确定要在池中创建的初始连接数当客户端尝试使用该池时
在 include() 中使用命名空间时出现关于 app_name 的 ImproperlyConfiguredError

我目前正在尝试 Django 我用namespace我的一个论证include s 在 urls py 中当我运行服务器并尝试浏览时我收到这个错误 File C Users User AppData Local Programs Pyt
F# 中的非类型化/类型化代码引用与宏卫生之间是否存在关系？

我想知道 F 中的非类型类型代码引用与宏系统的卫生之间是否存在关系他们是否用各自的语言解决相同的问题或者它们是不同的关注点元编程方面是唯一的相似之处即使在这方面也存在很大的差异您可以将宏的转换器视为从语法到语法的函数就像您可
在存储过程中立即执行始终给出权限不足的错误

这是存储过程的定义 CREATE OR REPLACE PROCEDURE usp dropTable schema VARCHAR tblToDrop VARCHAR IS BEGIN DECLARE v cnt NUMBER BEGIN
Swift 中的多变量赋值

如何使用 Swift 在一行中分配多个变量 var blah 0 var blah2 2 blah blah2 3 Doesn t work 你不知道这是一种语言功能可防止分配返回值时出现标准的不需要的副作用如下所示Swift 书中描
Matlab - 确定强度值的概率

如何确定 Matlab 中图像中出现强度值的概率或者是否有其他方法来确定它数学方程是 Pr Nk M N 其中 Pr 是概率 Nk 是第 K 个强度出现在图像中的次数 M N 表示 MxN 图像假设你的强度值都是整数你可以做你想做的
在AngularJS中，当同一表单中的另一个值发生更改时，如何强制重新验证表单中的字段？

我有一个包含几个字段的表单但是选择和输入字段是耦合的输入的验证取决于用户在选择字段中选择的值我将尝试用一个例子来澄清假设选择包含行星的名称
如何防止从 _bin_deployableAssemblies 文件夹复制隐藏的 .svn 文件夹？

我使用 bin deployableAssemblies 文件夹在每次构建后将 ASP NET MVC 程序集复制到 bin 文件夹不幸的是 MSBuild 任务还会复制隐藏的 svn 文件夹第一次尝试修复我想在项目级别解决这个问题
在Windows 7 64位中注册RichTx32.Ocx

我正在尝试为我正在 Access 2010 文件格式 2003 mdb 中处理的应用程序注册 RichTx32 Ocx 我已更新到 Windows 7 64 位从 Windows XP SP3 32 位但无法注册 ActiveX OCX
Python 中的正则表达式出乎意料地慢

考虑下面的 Python 代码 import timeit import re def one any s in mystring for s in foo bar hello r re compile foo bar hello def

Python 中的正则表达式出乎意料地慢

未来读者请注意

原答案

Python 中的正则表达式出乎意料地慢 的相关文章

随机推荐

热门标签

Python 中的正则表达式出乎意料地慢的相关文章