更多提高正则表达式效率的方法

2023-11-12

原文:http://wyzws.iteye.com/blog/1274020


  1. 让匹配更快失败,尤其是匹配很长的字符串时,匹配失败的位置要比成功的位置多得多。
  2. 以简单、必须的字元开始,排除明显不匹配的位置,如锚点(^或$),特殊字符(x或\u263A)字符类([a-z]或\d之类的速记符),和单词边界(\b);尽量避免使用分组、选择、重复量词开头,如/one|two/、\s、\s{1,}等。
  3. 使用量词模式时,尽量让重复部分具体化,让字元互斥,如用”[^"\r\n]*”代替”.*?”(这个依赖回溯)。
  4. 减少分支数量、缩小分支范围,用字符集和选项组件来减少分支的出现,或把分支在正则上出现的位置推后,把分支中最常出现的情况放在分支的最前面。cat|bat -> [cb]at;red|read -> rea?d;red|raw -> r(?:ed|aw);
    1.  
    2. (.|\r|\n) -> [\s\S]
    1. 使用非捕获组,因为捕获组需要消耗时间和内存来记录反向引用,并不断更新,如果不需要反向引用,可用非捕获组(?:…)代替捕获组(…);当需要全文匹配的反向引用时,可用regex.exec()返回的结果或者在替换字符串是使用$&。 
    此优化在firefox中效果较小,但其他浏览器中处理长字符串时有较大影响。
  5. 精确匹配需要的文本以减少后续的处理,如果需要引用匹配的一部分,可使用捕获,然后通过反向引用来处理。
  6. 暴露必需的字元,用/^(ab|cd)/而不是/(^ab|^cd)/。
  7. 使用合适的量词,基于预期的回溯数量,使用合适的量词类型。
  8. 把正则表达式赋值给变量以便复用和提升提升性能,这样可以让正则减少不必要的编译过程。while (/regex1/.test(str1)) {/regex2/.exec(str2);…}用下面的代替上面的   var regex1 = /regex1/,regex2 = /regex2/;while (regex1.test(str1)) {regex2.exec(str2);…}
  9. 将复杂的正则表达式拆分成简单的片段,每个正则只在上一个成功的匹配中查找,更高效,而且可以减少回溯。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

更多提高正则表达式效率的方法 的相关文章

  • grep 两个分隔符之间的子字符串

    我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串 例子 echo BeginMiddleEnd grep oP lt Begin End 问题是 当我将这些脚本移植到运行的平台时busybox 融合的 g
  • Python 非贪婪正则表达式

    我如何制作一个像这样的Python正则表达式 这样 给定 a b c d e 蟒蛇匹配 b 代替 b c d 我知道我可以使用 代替 但我正在寻找一种更通用的解决方案 使我的正则表达式更加干净 有没有办法告诉python 嘿 尽快匹配这个
  • Perl 正则表达式图灵完备吗?

    我见过 Ruby 和 Perl 程序员做了一些事情复杂的代码挑战 https codegolf stackexchange com questions 3596 regex validating regex完全用正则表达式 这前瞻和后瞻 h
  • Golang 正则表达式在字符串之间替换

    我有一些可能采用以下形式的字符串 MYSTRING MYSTRING n MYSTRING n MYSTRING randomstringwithvariablelength n 我希望能够将其正则表达式为MYSTRING foo 基本上替
  • Python 中的 grep 等价物是什么?

    假设我有一个文本文件 其中包含 我喜欢大象 这一行 如果我捕获所述文件并将其通过管道发送到 grep大象 我会得到整行 我喜欢大象 如何使用 re 在 Python 中实现此功能 我一直在尝试以下方法 test re search elep
  • 根据特定字符获取整个字符串或子字符串

    我有一个包含 MIME 类型的字符串 例如application json 现在我想将其与实际的 HTTP 标头进行比较 在本例中content type 如果标头包含 MIME 类型 那么就很简单 if mimeType contentT
  • 如何使正则表达式匹配不区分大小写?

    我有以下正则表达式加拿大的邮政编码 http en wikipedia org wiki Postal codes in Canada ABCEGHJKLMNPRSTVXY 1 d 1 A Z 1 d 1 A Z 1 d 1 它工作正常 但
  • Java正则表达式:为什么数字[0-9]、逗号等不是unicode?

    class Test public static void main String args String regex p L System out println 0 matches regex 上面的代码打印 false 但我期待 tr
  • [A-z0-9]+ 正则表达式匹配方括号[重复]

    这个问题在这里已经有答案了 我正在努力解决以下正则表达式 A z0 9 如果针对此字符串进行测试 a919238 a asd 它返回a919238 包括方括号 我尝试输入我在 regex101 上的测试用例 https www regex1
  • 检测两个正则表达式是否可能匹配相同的字符串[重复]

    这个问题在这里已经有答案了 给定两个正则表达式 是否可以检测是否存在与它们都匹配的可能字符串 例如 给定正则表达式A and 我可以看到那个字符串 A 匹配他们两个 这是一个简单的案例 我的问题是针对更广泛的情况 给定任何两个有效的正则表达
  • 如何通过php获取网页的Open Graph协议?

    PHP 有一个简单的命令来获取网页的元标记 get meta tags 但这仅适用于具有名称属性的元标记 然而 开放图谱协议如今变得越来越流行 从网页获取 opg 值的最简单方法是什么 例如 我看到的基本方法是通过 cURL 获取页面并使用
  • 使用 Firefox 绕过弹出窗口下载文件:Selenium Python

    我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
  • 反向引用在 PHP 中不起作用

    最近我一直在研究 更多的是在实践中说实话 正则表达式 我注意到他的力量 我提出的这个要求 link https stackoverflow com questions 30380397 take the text up to a speci
  • Oracle REGEXP_INSTR() 和“a-z”字符范围与预期不匹配

    我想用REGEXP INSTR 在 oracle 数据库中检查小写 大写字符 我知道 upper and lower POSIX 字符类 但我选择了a z这给了我非常奇怪的结果 我不明白 有人可以解释一下吗 SELECT REGEXP IN
  • 从字符串中获取数字

    我有一个字符串 例如 lorem 110 ipusm 我想获取 110 我已经尝试过这个 preg match all 0 9 string ret 但这正在返回 Array 0 gt 1 1 gt 1 2 gt 0 我想要这样的东西 Ar
  • Firefox 和 Safari 中的 MouseEvent.path 等效项

    我正在使用 Polymer 1 0 当点击 Chrome 中的按钮时MouseEvent被生成 这MouseEvent对象有一个path属性是单击按钮的父元素的有序数组 然而 在 Firefox 和 Safari 中 click生成的没有p
  • 正则表达式删除字符串中的双/三逗号

    我需要解析一个字符串 因此结果应该像这样输出 abc def ghi klm nop 但我收到的字符串可能看起来更像这样 abc def ghi klm nop 关键是 我事先不知道单词之间有多少个逗号 我可以在 C 中使用正则表达式来帮助
  • 除括号之间的内容外,所有内容均小写

    考虑以下字符串 LoReM FOO IPSUM dolor BAR Samet fooBar 我正在寻找一种方法来小写所有内容 除了 brackets 之间的内容应该被忽略 所以期望的输出是 lorem FOO ipsum dolor BA
  • Perl regex:如何知道匹配数

    我循环遍历一系列正则表达式并将其与文件中的行进行匹配 如下所示 for my regex regexs ref LINE for rawfile regex do do something here next LINE 有没有办法让我知道我
  • 替换两个引号之间的字符串

    我想转动一根绳子str hello my name is michael what s your s into hello my name is span class name michael span 我怎样才能在 JavaScript

随机推荐

  • 翻译:Attention Is All You Need

    摘要 主要序列转导模型基于包括编码器 encoder 和解码器 decoder 的复杂递归或卷积神经网络 性能最佳的模型还通过注意机制连接编码器和解码器 我们提出了一种新的简单网络架构 Transformer 完全基于注意机制 based
  • 结构化开发方法--结构化分析方法

    说在前面 本系列文章专注于软考备考复习内容梳理 文章内容是对教材中知识点和考点的提炼 备考过程中可以有针对的进行复习 减少阅读量 有的放矢 导航目录 一 结构化分析方法概述 二 数据流图 三 数据字典 DD 结构化分析与设计方法是一种面向数
  • PyQt5 音乐播放器实现

    PyQt5 音乐播放器 import sys from PyQt5 QtWidgets import QApplication QMainWindow QFileDialog QListWidgetItem from PyQt5 QtCor
  • 【计算机基础知识8】深入理解OSI七层模型

    目录 一 前言 二 OSI七层模型概述 三 第一层 物理层 四 第二层 数据链路层 五 第三层 网络层 六 第四层 传输层 七 第五层 会话层 八 第六层 表示层 九 第七层 应用层 十 OSI七层模型与实际网络通信的关系 十一 总结 一
  • Flask + Flask-socketio 实现简单的 WebServer(可与C++程序进行通信)

    Flask Flask socketio 实现简单的 WebServer 最近手头上的项目要给树莓派上的一个程序实现一个web客户端 公司之前用的goahead c 实现的 正好最近在看Python 鉴于python有强大的web开发框架
  • Firefox火狐浏览器显示你的连接不安全,是什么意思?

    当 Firefox 连接到一个安全的网站时 网址最开始为 https 它必须确认该网站出具的证书有效且使用足够高的加密强度 以充分保护您的隐私 如果证书无法通过验证 或加密强度过低 Firefox 会中止连接到这个网站 并向您显示SSL证书
  • 纯代码干货-Python基于YOLOv5的车辆检测并计数

    首先 你需要安装YOLOv5 可以通过官方文档了解安装步骤和相关依赖 接着 你需要准备训练好的车辆检测模型和测试图片或视频 1 导入库 import cv2 import torch from models experimental imp
  • sqlite 在实现记录存在即更新,不存在就插入

    在一次写sql语句的时候突发奇想 为什么不能把插入和更新记录写在一起呢 这样一条语句就能完成两个操作了 而且有时候可能也会碰到需要这样的逻辑 于是找了还真有 但是由于sqlite是比较小型的数据库所以具体方式不太一样 insert into
  • RS485通信与Modbus协议 附源码下载

    RS485通信与Modbus协议 附源码下载 RS485通信的特点 1 采用差分信号 2 RS485通信速率快 最大传输速率可以达到10Mb s以上 3 RS485内部采用平衡驱动器和差分接收器的组合 抗干扰能力大大增加 4 传输距离最远可
  • android播放gif图片,Android SurfaceView 播放gif

    Android SurfaceView 是Android系统中的高级组件 它有自己的绘制界面 可以在一个独立的线程进行UI的绘制 因此不会阻塞主线程 这也是我们使用SuefaceView播放gif图片的原因 先简单说一下思路 gif图其实就
  • Openwrt编译python3时出现错误:No rule to make target `package//host/compile'

    步骤 1 在package目录下添加python3 包含Makefile files和相关patches文件 2 执行make package python3 compile V s make 1 No rule to make targe
  • 纯css3制作手风琴选项卡

    前言 平时工作中时常会制作手风琴以及选项卡 制作这些我们首先想到的是使用 js 操作 而其实 css3 也是可以完成 不需要使用 js 下面我们就使用 css3 完成 效果如下 手风琴 结构代码如下 ul class box li li u
  • 美团-分布式会话跟踪系统架构设计与实践

    前言 随着美团点评的业务发展 公司的分布式系统变得越来越复杂 我们亟需一个工具能够梳理内部服务之间的关系 感知上下游服务的形态 比如一次请求的流量从哪个服务而来 最终落到了哪个服务中去 服务之间是RPC调用 还是HTTP调用 一次分布式请求
  • Hibernate中用hql查询部分字段

    hql查询单表部分字段 在hibernate中 用hql语句查询实体类 采用list方法的返回结果为一个List 该List中封装的对象分为以下三种情况 1 查询全部字段的情况下 如 from 实体类 list中封装的对象为实体类本身 各属
  • 如何禁用GeForce Experience的奖励广告

    NVIDIA s GeForce Experience software now displays notification advertisements for free to play games If you don t want n
  • 系统错误!!!VCRUNTIME140.dll找不到的解决方案

    相信各位很多一定有过这样的经历 当你打开steam 打算开开心心玩一场游戏 当你打开电脑 想登个QQ 然后 太淦了 对不对 笔者百度了一下 教程挺多 不过试试我的也是可以的 至少我觉得简单实用吧 而且以后电脑软件有什么小毛病都可以试试 通过
  • 使用百度API进行情感分析(python)(二)

    编写代码 将代码中的token值改为上一篇得到的Access token值 即可 该值的时间期限约是一个月 一个月之后需要重新获取Access token值 获取方法与之前相同 代码示例 import re import requests
  • 基于.Net的权限管理快速开发框架

    一 项目简介 基于 Net的权限管理快速开发框架 二 实现功能 支持基础功能 系统设置 角色管理 用户管理 组织机构 字典管理 支持功能模块 权限管理 url权限 按钮权限 支持定时任务 在线的定时任务 任务调度 执行结果 支持基本的日志管
  • C++实例(十二)图形绘制

    一 特殊曲线 绘制蜗牛线 绘制贝塞尔曲线 拖动绘制曲线 绘制正弦曲线 绘制立体模型 交叉线条 绘制尼哥米德蚌线 艺术图案万花筒 绘制抛物线 等电位面图 沙丘图案 绘制艺术图案 立体三棱锥 二 图形基础 创建不同的画刷 指定颜色填充矩形区域
  • 更多提高正则表达式效率的方法

    原文 http wyzws iteye com blog 1274020 让匹配更快失败 尤其是匹配很长的字符串时 匹配失败的位置要比成功的位置多得多 以简单 必须的字元开始 排除明显不匹配的位置 如锚点 或 特殊字符 x或 u263A 字