正则表达式如何在幕后工作（在 CPU 级别）？

2024-01-11

解释器和编译器是否以逐个字符和从左到右的方式比较（并最终匹配）两个字符串是否可能匹配？或者是否有一个底层二进制值（例如，位模式）分配给比较函数中的每个字符串？或者它是否取决于以某种方式（ASCII 或 UTF-32）编码的字符串，或者解释器、编译器、数据库引擎或编程语言？

重新设计数据存储（数据文件或数据库）是一项相当大的工作。 stackoverflow 上类似问题的答案并未明确描述编码问题（是评估位模式还是实际的字母字符）。这个问题的答案对于优化工作可能很重要。

我不想知道如何实现正则表达式（例如，编写我自己的）。我想知道出于教育目的以最佳方式使用现有正则表达式的好处（例如，当需要设计要存储为子字符串组合的数据时，我是否应该注意从左到右的评估）。类似的 StackOverflow 问题answer https://swtch.com/~rsc/regexp/regexp1.html（这是一个具有不受信任的证书的链接，可以查看它）重点关注有限自动机（如何比较字符串的理论）。该答案强调了它的工作原理以及比较字符串的计算复杂性。它确实意味着存在从左到右的角色评估。我认为无论如何这都不是决定性的。这篇文章主要针对 Perl 和与语言无关的 Thomson 非确定性有限自动机算法。我想确切地了解这三种技术组合：1）使用 ASCII 数据文件的 Java 本机函数，2）MySQL（表数据和 SELECT 语句），以及 3）使用 Python 本机函数和 UTF-32 数据文件。

我的问题和方法与旧帖子不同，因为我并不是试图开发一个用于执行正则表达式的解析器。我正在尝试为未来的开发构建数据。我想知道如何以最佳方式利用现有的正则表达式工具。我相信 stackoverflow 是正确的论坛，因为它是正则表达式的核心，并且这个问题以其原始且不那么冗长的形式已被投票通过。

我想知道在CPU级别，位模式是字符串中字符的表示形式吗？是否存在与参与其中锚定一个字符串的比较的字符串的每个字符相对应的位模式的短期索引？我认为技术（例如数据库、编程语言和/或数据编码）会有所不同。

正则表达式引擎有两大系列，称为NFA and DFA（我使用的是 Jeffrey Friedl 书中的术语）：

不确定性有限自动机
确定性有限自动机

NFA 实施将roughly按以下方式工作：

保留一个指向a的指针当前偏移量 in the 输入字符串
保留一个指向当前位置 in the pattern（被解释为图形或树）。

然后使用该模式作为recipe如何在输入字符串中前进。如果模式说a例如，如果当前输入偏移指向一个a字符，那么该字符将是consumed并且两个指针都会前进到下一个位置。如果字符不匹配，则会回溯（输入指针将转到先前的有效位置，并且模式指针将在输入位置设置为不同的可能替代位置）。

重点是识别是由模式驱动的.

（上面的解释是very粗糙，因为它不包括优化等 - 而且现代模式无论如何都不能用正式的自动机来实现）

DFA 实现的工作原理相反：

还有one输入指针，但有multiple模式指针。输入模式将逐个字符前进，并且模式指针将跟踪给定输入的模式中的有效状态。

The 识别由输入驱动.

这两种方法具有非常不同的属性：

NFA引擎可以提供更多的功能，但它们的运行时间取决于输入和模式本身的组合
DFA引擎提供的功能较少，但其复杂性O(n), where n是输入字符串的长度。

一些正则表达式引擎（例如PCRE）可以实现这两种识别方法。我建议您阅读PCRE 文档 http://www.pcre.org/current/doc/html/pcre2matching.html关于两种匹配算法，用更专业的术语解释了差异。

至于actual实现，它很大程度上取决于正则表达式引擎本身。 PCRE 有几个：

基于树遍历方法的NFA算法
基于 JIT 编译的上述优化版本（每个支持的指令集一个版本）
DFA 实施

因此，您实际上可以看到，仅针对 NFA 就有几种可能的方法。其他引擎具有不同的实现，允许不同的功能集。例如，.NET 的正则表达式可以从左到右或从右到左匹配，因此可以轻松提供可变长度的lookbehind，而 PCRE 的lookbehind 是通过将输入指针临时向左移动lookbehind 的预期输入来实现的长度，并从此偏移量执行从左到右的匹配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式如何在幕后工作（在 CPU 级别）？的相关文章

SQL 选择与带有通配符的 URL 匹配的行

我在数据库中有一个表其中一列包含一个 URL 例如http example com users http example com users 轮廓我得到了一个 URL 例如http example com users 234 profi
在 Java/GWT 中解析用户时间输入

解析用户在 GWT 中的文本字段中键入的时间的最佳方法是什么默认时间格式要求用户完全按照区域设置指定的时间格式输入时间我想要更加灵活因为用户可以通过多种不同的方式输入时间例如 8 8p 8pm 8 15pm 13 15 1315 1
基于Java模式分割字符串

您好我有以下模式的日志文件 2014 03 06 03 21 45 432 ERROR mfs pool 3 thread 19 dispatcher StatusNotification Error processing notific
如何在Powershell控制台中分配多行字符串

当我在 powershell 控制台中输入此内容时 test Test Test 并且输入多次它会一直打印 gt gt 所以我永远无法完成命令该怎么办应该是行中的第一件事或者它被认为只是字符串的一部分 test Test Test
如何防止用户生成的 Sql 查询上的 Sql 注入

我有一个项目私有的 ASP net 网站受 https 密码保护其中要求之一是用户能够输入直接查询数据库的 Sql 查询我需要能够允许这些查询同时防止它们对数据库本身造成损坏以及访问或更新它们不应该访问更新的数据我制定了以下
R：变换不规则时间字符串

我有两个不同的时间序列来自不同的数据帧具有不同的不规则格式但问题是相同的我只想提取小时分钟秒和毫秒时代系列看起来像这样 ts1 08 27 23 445 08 27 24 280 08 27 25 115 I tried st
句子中模糊的电子邮件地址

我正在输出日志消息需要隐藏其中的电子邮件地址日志消息可能如下所示 A lead was saved for email protected cdn cgi l email protection Date 11th December 20
laravel 正则表达式验证不起作用

我刚刚开始使用 laravel 正在努力验证我的表单之一中的文本区域文本区域用于用户简介因此我只想允许使用字母数字空格和以下字符这就是我所拥有的 validator Validator make Input all array b
由表达式文字生成的正则表达式是否共享单个实例？

以下代码片段来自 Crockford 的Javascript 好的部分演示了由正则表达式文字创建的 RegExp 对象共享单个实例 function make a matcher return a gi var x make a mat
如何在正则表达式中编写可选单词？

我想编写一个识别以下模式的 java 正则表达式 abc def the ghi and abc def ghi 我试过这个 abc def the ghi 但是它没有识别第二种模式我哪里出错了 abc def the ghi 删除多余
使用正则表达式验证电子邮件的最大长度

我找到了用于电子邮件验证的正则表达式 a z0 9 a z0 9 a z0 9 a z0 9 a z 2 4 我希望电子邮件的最大长度为 20 个字符因此我将其更改为 a z0 9 a z0 9 a z0 9 a z0 9 a z 2 4
测试 xmm/ymm 寄存器是否为零的更快方法？

It s fortunate that PTEST does not affect the carry flag but only sets the rather awkward ZF also affects both CF and ZF
将 Regex 对象分配给 html 输入模式

我需要以编程方式将正则表达式对象分配给输入元素模式属性以下是我当前的实现 var regex d 5 element attr pattern regex toString slice 1 1 有没有更好的方法来做到这一点而不需要字符串操
如何为所有语言创建字母数字正则表达式？

我今天遇到了这个问题此正则表达式仅匹配英语 a zA Z0 9 如果我需要支持这个世界上的任何语言我应该编写什么正则表达式如果您使用字符类简写和 Unicode 识别正则表达式引擎您就可以做到这一点这 wclass 匹配单词字符
在 String 值之后打印 int 值

我有以下示例代码 int pay 80 int bonus 65 System out println pay bonus bonus pay 有人可以向我解释一下为什么我得到以下输出 145 6580 您的代码正在从左到右解释表达式 pa
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
什么正则表达式永远无法匹配？

Merged https meta stackexchange com questions 158066 what is a merged question with 永远不会与任何内容匹配的正则表达式 questions 1723182
假装 .NET 字符串是值类型

在 NET 中字符串是不可变的并且是引用类型变量这通常会让新的 NET 开发人员感到惊讶因为他们的行为可能会将它们误认为是值类型对象然而除了使用实践StringBuilder对于长连接尤其是在循环中在实践中是否有任何理由需
检查字符串是否编码为 UTF-8

function seems utf8 str length strlen str for i 0 i lt length i c ord str i if c lt 0x80 n 0 0bbbbbbb elseif c 0xE0 0xC0
使用正则表达式查找除一个字符串之外的所有字符串[重复]

这个问题在这里已经有答案了我想匹配除字符串之外的所有字符串 ABC 例子 A gt Match F gt Match AABC gt Match ABCC gt Match CBA gt Match ABC gt No match 我尝试

随机推荐

:checkDebugManifest FAILED => 为属性“manifest”指定的文件不存在

Using 本指南 http spring io guides gs gradle android 我想使用 Gradle 在 Eclipse 中构建一个现有项目 build gradle 包含 buildscript repositori
无法使用护照在 MongoDB 中存储会话

我是 Node JS 新手我尝试使用 connect mongo npm 包将会话存储在 mongoDB 中一旦添加以下行我收到错误 app use session saveUninitialized true resave true
“if constexpr()”与“if()”之间的区别

有什么区别if constexpr and if 我可以在何时何地使用它们唯一的区别是if constexpr在编译时评估而if不是这意味着分支可以在编译时被拒绝因此永远不会被编译想象一下你有一个函数 length 返回数字的长度
带有复选框的表单中的多域字段在 django 模板中插入了选择字段

我有 ManyToManyField 模型现在我需要表单但不需要模板中的选择字段 class Foo models Model name models CharField max length 50 short description
在 VS Code 中发布构建

构建 C 项目时如何在 VS Code 中切换到 Release 配置现在我启动我的应用程序Ctrl F5 or Debug gt Start Without Debugging它也构建它但这仅创建一个调试构建bin Debug 没有
TS-2304 错误 - 在“.ts”文件中导入“jquery”时无法在 TypeScript 中找到名称“Iterable”

我正在使用 Visual Studio Code 作为编辑器开发 TypeScript 2 4 版本我使用以下命令通过 NPM 安装了 jQuery npm install save types jquery 然后我下载了源码jquery
UnityVS 无法附加到 Unity 编辑器 - Visual Studio 2013 Community Edition

我购买了UnityVS 它与VS2010运行良好后来微软收购了他们的公司现在 UnityVS 是一款免费插件但有一个区别它更加不稳定我在新更新中遇到了几个问题最后我决定转向全新版本称为 Visual Studio Tools
如何从另一个类调用静态方法？

我正在尝试打电话静态方法从a h到b cpp 根据我的研究它就像只放置一个范围解析一样简单但无论如何我尝试过它都会抛出一个错误 C 需要所有声明的类型说明符下面是我所拥有的 a cpp float method some calc
WordPress wp_query 按自定义字段分组

我必须创建一个搜索表单在其中必须按自定义帖子类型的状态填充选择其中一些具有相同的状态然后我想进行分组以获得一个干净的状态选择列表我已经这样做了
纯 C/C++ 中的二进制序列化

我想自己实现二进制序列化而不使用Boost或任何其他第三方库在 C 中实现它的最简单方法是使用ofstream然后通过网络发送二进制文件但是是否有其他流类可以用作临时缓冲区以避免将文件写入磁盘另外我怎样才能用纯C实现这一点坚持
对打字稿文件语法错误进行玩笑测试：“接口是严格模式下的保留字”

我的分行 https github com Futuratum moonholdings io tree JestTests https github com Futuratum moonholdings io tree JestTests
如何将字符添加到R中的字符串[重复]

这个问题在这里已经有答案了我有这样的事情 text lt abcdefg 我想要这样的东西 abcde fg 在不为向量分配新字符串的情况下如何实现这一点text而是改变向量本身的元素最后我想随机插入点实际上不是点而是向量的字符元
响应选择器的自定义可检查视图

我有一群FrameLayout我希望可以检查选择也就是说点击后我想要FrameLayout显示为checked 当再次按下时我希望它变成 unchecked 更重要的是我希望通过使用
无法在 github 操作中创建（python）QApplication

我为我的 python Qt gui 进行了一些单元测试它需要 QApplication 实例但是创建一个测试对我来说总是失败即以核心转储和应用程序中止结束 QApplication 到目前为止我尝试过的是 creation meth
使用子图放大时间序列或如何在轴边界之外绘制线条

我想用 matplotlib 生成这样的图目前我只是使用 matplotlib 绘制 3 个子图并在 inkscape 中添加红线我发现我可以用以下命令创建虚线矩形Rectangle http matplotlib org api a
如何在 Chrome / Firefox 浏览器中查看 SQLite 数据库？

我在用SQLite我的 Android 应用程序中的数据库我想在我的 Chrome 或 Firefox 浏览器中查看数据库要查看数据库通常我打开Logcat在 android Studio 中并选择详细并写入http in serac
ODBC 驱动程序之间的差异

我正在使用 Windows 10 64 位专业版在 SQL Server 2016 中为我的数据库设置系统 DSN 64 位当我被要求选择驱动程序来设置数据源时有以下选择 SQL Server 的 ODBC 驱动程序 13 SQL服务器
UITableViewRowAction 使用图像而不是标题

我想做一个cell像邮件应用程序一样滑动操作 I set UIImage to backgroundColor的行动作 action backgroundColor UIColor colorWithPatternImage UIImage
我的 Haskell 表达式何时被求值？

如果我定义 gt data Bar Bar Int deriving Show gt data Foo Foo Bar deriving Show and gt let foo trace foo Foo trace bar Bar 100
正则表达式如何在幕后工作（在 CPU 级别）？

解释器和编译器是否以逐个字符和从左到右的方式比较并最终匹配两个字符串是否可能匹配或者是否有一个底层二进制值例如位模式分配给比较函数中的每个字符串或者它是否取决于以某种方式 ASCII 或 UTF 32 编码的字符串或者解释器

正则表达式如何在幕后工作（在 CPU 级别）？

正则表达式如何在幕后工作（在 CPU 级别）？ 的相关文章

随机推荐

热门标签

正则表达式如何在幕后工作（在 CPU 级别）？的相关文章