Regular Expression实现

2023-11-09

主要分2大块，

核心部分：就是一个NFA，只支持标准正则的操作，concatenation, union, iteration，限定上限的iteration，对应的meta character只有 (, ), |, *, ., {upper}

扩展部分：这部分是把扩展正则表达式转化为标准正则表达式，扩展正则表达式支持集合[a-z0-9], 重复次数上下界限制 {lower, upper}，+，？等

一：核心NFA部分

对于DFA来说，内部就是一张状态转移表table[state][next input char]；对于NFA，内部就是一个epsilon状态转移有向图。DFA的状态转移必须由输入字符触发，而且转移是确定的。NFA可以不读输入进行转移（而且有多种转移），对应meta character，比如*，可以back reference之前的字符，而“（”和“）”也不需要consume输入，因为是meta character，不对应输入字符。NFA的不确定体现在，有多种转移，可以到达多种状态，那些状态又可以有多种转移，所以是一个Digraph的dfs问题，所以判断match的条件是从初始状态出发dfs能够到达终止状态，是一个路径搜索问题。

1 simulate(判断匹配）

1）从状态0 dfs，遍历epsilon转移，得出一个初始状态集

2）对于当前输入字符，

2).1 尝试从当前状态集的每个状态匹配，这个是consume输入的。转移到下一个状态，if (re.charAt(v) == c || re.charAt(v) == '.') states.add(v + 1)

2).2 从2).1得到的新的状态集出发多源dfs, 进行epsilon转移遍历，得出新的状态集，作为下一个字符对应的状态集

3）match判断，最终状态集里如果包含终止状态，说明终止状态是可达的。

2 epsilon转移Digraph的构建，读入标准正则表达式

1）对于（，）和* 添加一条到下一个字符的转移

2）对于iteration操作符*，添加*到back reference的实体的起始位置的双向转移，实体是单个字符或者子regex（被小括号括着）

3）对于Union操作符|，规定必须由小括号括着，即必须是（a|b)，添加从（到|之后的实体的转移，以及|之后的实体到）的转移

4）对于有上限的iteration {upper}, 和*类似，添加从{到之前实体的双向转移，和从{到下一个字符（}之后）的转移。但是从{往前back reference的转移的边是带权的，权值就是重复次数 - 1。为了支持限定次数的iteration，Digraph是带权的，普通边权值设定为-1，带整数权值的边表示这条边只能走这么多次，相应的dfs算法也会做判断，每走一次decrease一次权值，直到0，0表示这条边不能走，相当于没有。

二：扩展的正则表达式支持

对原始输入的正则表达式进行处理，转化成标准正则表达式

[a-z0-9] 转化成((a|b)|c...

x+ 转化成 xx*

x?转化成x{1}

x{2, 3}转化成 xx{3-2}即xx{1}

[^abc] 先求差集charset - [abc]，在转化成((a|b)|c)的形式

package excercise;
import java.util.*;
class Edge {
	int from, to, weight;
	public Edge(int from, int to, int w) {
		this.from = from;
		this.to = to;
		this.weight = w;
	}
}
class Digraph {
	private List<Edge>[] adj;
	private int V;
	public Digraph(int V) {
		this.V = V;
		adj = new List[V];
		for (int v = 0; v < V; ++v)
			adj[v] = new ArrayList<Edge>();
	}
	public void addEdge(int v, int w, int weight) {
		this.adj[v].add(new Edge(v, w, weight));
	}
	public void addEdge(int v, int w) { addEdge(v, w, -1);}
	public int V() {return V;}
	public Iterable<Edge> adj(int v) { return adj[v];}
}
class DirectedDFS {
	private boolean[] marked;
	private Digraph G;
	public DirectedDFS(Digraph G, int v) {
		marked = new boolean[G.V()];
		this.G = G;
		dfs(v);
	}
	public DirectedDFS(Digraph G, Iterable<Integer> s) {
		marked = new boolean[G.V()];
		this.G = G;
		for (int v : s) dfs(v);
	}
	public boolean marked(int v) {return marked[v];}
	private void dfs(int v) {
		marked[v] = true;
		for (Edge e : G.adj(v)) {
			if (!marked[e.to]) {
				if (e.weight < 0) dfs(e.to);
				else if (e.weight > 0) {
					e.weight--;
					dfs(e.to);
				}
			}
		}
	}
}
class NFA {
	private String re;
	private Digraph G;
	private int M;
	public NFA(String regex) {
		re = regex;
		M = regex.length();
		G = buildEpsilonTransitionGraph();
	}
	private Digraph buildEpsilonTransitionGraph() {
		Digraph G = new Digraph(M + 1);		
		Stack<Integer> ops = new Stack<Integer>();
		for (int i = 0; i < M; ++i) {
			int lp = i;
			if (re.charAt(i) == '(' || re.charAt(i) == '|') ops.push(i);
			else if (re.charAt(i) == ')') {
				int or = ops.pop();
				if (re.charAt(or) == '|') {
					lp = ops.pop();
					G.addEdge(or, i);
					G.addEdge(lp, or + 1);
				}
				else lp = or;
			}
			if (i < M - 1 && re.charAt(i + 1) == '*') {
				G.addEdge(lp, i + 1);
				G.addEdge(i + 1, lp);
			}
			if (i < M - 1 && re.charAt(i + 1) == '{') {
				int rb = re.indexOf('}', i + 1);
				int num = Integer.parseInt(re.substring(i + 2, rb));
				G.addEdge(lp, i + 1);
				G.addEdge(i + 1, lp, num - 1);
			}
			if (re.charAt(i) == '(' || re.charAt(i) == ')' || re.charAt(i) == '*' )
				G.addEdge(i, i + 1);
			else if (re.charAt(i) == '{') {
				int rb = re.indexOf('}', i);
				G.addEdge(i, rb + 1);
			}
		}
		return G;
	}
	public boolean recognizes(String text) {
		List<Integer> e_closure = new ArrayList<Integer>(); 
		DirectedDFS dfs = new DirectedDFS(G, 0);
		for (int v = 0; v < G.V(); ++v) //compute e-closure(0), epsilon closure of start state
			if (dfs.marked(v)) e_closure.add(v);
		
		for (int i = 0; i < text.length(); ++i) {
			char c = text.charAt(i);
			List<Integer> states = new ArrayList<Integer>();
			for (int v : e_closure) { //compute Y = c(X), the state set Y that state set X could goto on c
				if (v == M) continue;
				if (re.charAt(v) == c || re.charAt(v) == '.') states.add(v + 1);
			}
			if (states.isEmpty()) return false;
			dfs = new DirectedDFS(G, states); 
			e_closure = new ArrayList<Integer>(); //compute e-closure(Y)
			for (int v = 0; v < G.V(); ++v)
				if (dfs.marked(v)) e_closure.add(v);
			if (e_closure.isEmpty()) return false;
		}
		
		for (int v : e_closure)
			if (v == M) return true;
		return false;
	}
}
public class RE {
	private NFA nfa;
	private final Set<Character> metaChars;
	
	public RE(String regex) {
		char[] metaArray = {'*', '(', ')', '[', ']', '{', '}', '.', '|'};
		metaChars = new HashSet<Character>();
		for (char c : metaArray) metaChars.add(c);
		String afterProcess = preProcess(regex);
	//	System.out.println(afterProcess);
		nfa = new NFA(afterProcess);
	}
	public  boolean recognizes(String text) {
		return nfa.recognizes(text);
	}
	private String preProcess(String s) {
		StringBuilder sb = new StringBuilder();
		int lastREStart = -1;
		int leftParenthese = -1;
		int or = -1;
		for (int i = 0; i < s.length(); ++i) {
			if (s.charAt(i) == '[') {
				int rb = s.indexOf(']', i + 1);
				lastREStart = sb.length();
				sb.append(handleBracket(s, i, rb));
				i = rb;
			}
			else if (s.charAt(i) == '{') {
				int end = sb.length();
				int comma = s.indexOf(',', i + 1);
				int num = Integer.parseInt(s.substring(i + 1, comma));
				for (int j = 0; j < num; ++j)
					sb.append(sb.substring(lastREStart, end));
				int rb = s.indexOf('}', comma + 1);
				int num2 = Integer.parseInt(s.substring(comma + 1, rb));
				sb.append("{" +  (num2 - num) + "}");
				i = rb;
			}
			else if (s.charAt(i) == '+') {
				sb.append(sb.substring(lastREStart, sb.length()));
				sb.append('*');
			}
			else if (s.charAt(i) == '?') {
				sb.append("{1}");
			}
			else if (s.charAt(i) == '|') {
				if (or > 0) {
					sb.insert(0, '(');
					sb.append(')');
					lastREStart = 0;
				}
				sb.append(s.charAt(i));
				or = sb.length() - 1;
			}
			else {
				if (leftParenthese == -1) lastREStart = sb.length();
				sb.append(s.charAt(i));
				if (s.charAt(i) == '(') leftParenthese = i;
				else if (s.charAt(i) == ')') {
					lastREStart = leftParenthese;
					leftParenthese = -1;
				}
			}
		}
		if (or > 0) {
			sb.insert(0, '(');
			sb.append(')');
			lastREStart = 0;
		}
		return sb.toString();
	}
	private String handleBracket(String s, int l, int r) {
		boolean filter = true;
		boolean[] include = new boolean[256];
		if (s.charAt(l + 1) == '^') {
			filter = false;
			++l;
		}
		for (int i = l + 1; i < r; ++i) {
			if (s.charAt(i) != '-') 
				include[s.charAt(i)] = true;
			else {
				for (char c = (char)(s.charAt(i - 1) + 1); c < s.charAt(i + 1); ++c) 
					include[c] = true;
			}
		}
		ArrayDeque<Character> ad = new ArrayDeque<Character>();
		for (char c = 0; c < 256; ++c) {
			if (include[c] == filter && !metaChars.contains(c)) {
				if (ad.isEmpty()) ad.addLast(c);
				else {
					ad.addLast('|');
					ad.addLast(c);
					ad.addFirst('(');
					ad.addLast(')');
				}
			}
		}
		char[] a = new char[ad.size()];
		for (int i = 0; i < a.length; ++i)
			a[i] = ad.pollFirst();
		return new String(a);
	}
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

算法

parser

Regular Expression实现的相关文章

【计算机毕设选题】opencv python 深度学习垃圾图像分类系统

文章目录 0 前言课题简介一识别效果二实现 1 数据集 2 实现原理和方法 3 网络结构最后 0 前言这两年开始毕业设计和毕业答辩的要求和难度不断提升
【Leetcode】49. 字母异位词分组

49 字母异位词分组题目链接代码一代码二题目链接 Leetcode 49 字母异位词分组代码一 func groupAnagrams strs string string 存放字典序相同的字符串切片 hash map string
蒙牛×每日互动合作获评中国信通院2023“数据+”行业应用优秀案例

当前在数字营销领域品牌广告主越来越追求品效协同针对品牌主更注重营销转化的切实需求数据智能上市企业每日互动股票代码 300766 发挥自身数据和技术能力优势为垂直行业的品牌客户提供专业的数字化营销解决方案颇受行业认可就在不久前举
CCF模拟题 202309-2 坐标变换（其二）

问题描述试题编号 202309 2 试题名称坐标变换其二时间限制 1 0s 内存限制 512 0MB 问题描述对于平面直角坐标系上的坐标 x y 小 P 定义了如下两种操作 1 拉伸 k 倍横坐标 x 变为 kx 纵坐标 y 变
CCF模拟题 202309-1 坐标变换（其一）

问题描述试题编号 202309 1 试题名称坐标变换其一时间限制 1 0s 内存限制 512 0MB 问题描述对于平面直角坐标系上的坐标 x y 小P定义了一个包含n个操作序列T t1 t2 tn 其中每个操作ti 1 lt i
基于粒子群算法的电动汽车充电动态优化策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
用通俗易懂的方式讲解：大模型 RAG 在 LangChain 中的应用实战

Retrieval Augmented Generation RAG 是一种强大的技术能够提高大型语言模型 LLM 的性能使其能够从外部知识源中检索信息以生成更准确具有上下文的回答本文将详细介绍 RAG 在 LangChain 中的
关于整型提升与截断的一道题目

关于整型提升与截断可以看我的博客 C语言整型提升 c语言整形提升 CSDN博客 C语言截断整型提升算数转换练习 c语言unsigned CSDN博客一题目二题解 char a 101截断由于101是整型数据需要32比特
J2EE常见面试题（一）

StringBuilder和StringBuffer的区别 String 字符串常量不可变使用字符串拼接时是不同的2个空间 StringBuffer 字符串变量可变线程安全字符串拼接直接在字符串后追加 StringBuilder
【C++入门】C++ STL中string常用函数用法总结

目录前言 1 string使用 2 string的常见构造 3 string类对象的访问及遍历迭代器遍历访问 4 string类对象的容量操作 4 1 size和length 4 2 clear empty和capacity 4 3
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
2024年华为OD机试真题-小明找位置-Java-OD统一考试（C卷）

题目描述小朋友出操按学号从小到大排成一列小明来迟了请你给小明出个主意让他尽快找到他应该排的位置算法复杂度要求不高于nLog n 学号为整数类型队列规模 lt 10000 输入描述 1 第一行输入已排成队列的小朋友的学号正整
2024年华为OD机试真题-手机App防沉迷系统-Java-OD统一考试（C卷）

题目描述智能手机方便了我们生活的同时也侵占了我们不少的时间手机App防沉迷系统能够让我们每天合理的规划手机App使用时间在正确的时间做正确的事它的大概原理是这样的 1 在一天24小时内可注册每个App的允许使用时段 2 一个时
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
矩阵基本操作

问题描述已知一个n n的矩阵方阵n lt 100 把矩阵主副对角线上的元素值加上x 然后输出这个新矩阵输入格式一行两个变量用空格隔开代表n和x 接下来的n行每行n列表示矩阵的数值用空格隔开输出格式输出新矩阵每个数字5个
LeetCode解法汇总83. 删除排序链表中的重复元素

目录链接力扣编程题解法汇总分享记录 CSDN博客 GitHub同步刷题项目 https github com September26 java algorithms 原题链接力扣 LeetCode 描述给定一个已排序的链表的头
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系

随机推荐

Learning OpenStack Keystone

Author 海峰 http weibo com 344736086 http yanheven github io http blog csdn net yanheven1 这周重新学习整理了OpenStack Keystone里面的知识
CentOS没有了用什么？Rocky Linux 8.6安装体验

2020 年 12 月 8 日 CentOS 项目宣布 CentOS 8 将于 2021 年底结束而 CentOS 7 将在其生命周期结束后停止维护 CentOS 7 9 和 CentOS 8 5 将是最后的2个CentOS 版本官方解
concurrentHashMap解析这篇文章就够了

实现原理 ConcurrentHashMap使用分段锁技术将数据分成一段一段的存储然后给每一段数据配一把锁当一个线程占用锁访问其中一个段数据的时候其他段的数据也能被其他线程访问能够实现真正的并发访问如下图是ConcurrentH
使用 Python 操作 MongoDB

使用 Python 操作 MongoDB MongoDB 是一个开源的面向文档的 NoSQL 数据库它具有高性能可扩展性和灵活性的特点通过使用 Python 的 pymongo 模块我们可以方便地操作 MongoDB 数据库本文将
CPU工作原理和MMU初探

具体相关内容主要参考自一篇博客当然有结合其它内容感谢博主提供的资源这里附上参考链接 http www cnblogs com xiangtao archive 2013 04 11 3014815 html 关于CPU和MMU需要做几
企业微信第三方应用-应用客服会话（h5)

企业微信中第三方应用 h5 不能像小程序那样将button标签的open type属性设置为contact即可跳转到客服会话页面但是js sdk为了开发者提供了openThirdAppServiceChat Api 让用户可快速打开应用客
IT项目管理作业五

一你联合同学做一个年级微信公众号加强各班相互了解联合活动等请写一份两页的报告描述收集需求的方法并附上收集的需求跟踪矩阵不少于五个需求收集需求的方法数据收集方面头脑风暴召集项目所有的参与成员共同讨论关于微信公众号对于
Python Class

关键字1 self self指代类的实例化而不是类本身 class Test def prt self print self print self class t Test t prt result
从事Java三年多，去应聘16k最后没被录用，细节如下……

前言今天小编和大家分享一位以前面试的一位应聘者工作4年26岁统招本科以下就是他的简历和面试情况基本情况专业技能 1 熟悉Sping了解SpringMVC SpringBoot Mybatis等框架了解SpringCloud微服
和平精英服务器位置,和平精英音乐盒在哪里地图详细位置介绍

和平精英体验服最近重新开放服务器不少玩家在游戏中发现了新内容特别是热度特别高的万圣节模式很多小伙伴会问和平精英音乐盒在哪里快随小编来看看吧在所有地图的一些房区里面是会随机刷新出音乐盒的当我们发现音乐盒后是可以与这个道具互动的我
2023前端面试题——JS篇

1 判断 js 类型的方式 1 typeof 可以判断出 string number boolean undefined symbol 但判断 typeof null 时值为 object 判断数组和对象时值均为 object 2 inst
避免陷入信息茧房

目录一什么是信息茧房二做什么容易陷入信息茧房三如何避免陷入信息茧房总结一什么是信息茧房信息茧房 Echo Chamber 是指在社交媒体和互联网环境中个体被限制在一种信息和观点的环境中与自己持相似观点的人群形成闭环
目标文件格式分析工具: ar,nm,objdump,objcopy,readelf

http www kgdb info linuxdev object analyse tools 目标文件格式分析工具 ar nm objdump objcopy readelf 2011年9月5日 reship 发表评论阅读评论本文转
推荐算法：基于内容的推荐_1：内容推荐算法

基于内容的推荐推荐给用户他们过去喜欢的类似产品基于CF的推荐识别出具有相同爱好的用户给他们推产品基于内容的推荐算法基于内容推荐的步骤对数据内容分析得到物品的结构化描述分析用户过去的评分或评论过的物品的作为用户的训练样本
nabc模型_WHÏµÁÐÔ²»¡Ô²ÖùÎÏ¸Ë¼õËÙ»ú3DÁ¢ÌåÄ£ÐÍ_¼õËÙ»ú_¼õËÙÆ÷_ÖÐ¹ú¼õËÙ»úÐÅÏ¢Íøwww.jiansuji001.com...

OzsgSFNGIFYxMy4wNSAKSQAAAABCAFTjJb68dJO9QmDluwAAAD4nMQg TDeJPlp42ux9B0BU17bonjnnTC 0XobeYWYYYCiD2BGNhSYiKogoKqKCBStjixqj
vscode打开代码，注释中的中文显示乱码

问题如下 np random seed 2017 瀹氫箟闅忔満鏁扮殑绉嶅瓙 INPUT CHANNELS 3 杈撳叆鏁版嵁鐨勬尝娈垫暟锛孯GB锛屼负3 OUTPUT MASK CHANNELS 1 瀹氫箟杈撳嚭mask鐨勬尝娈垫暟锛屽彧鏈変
String与StringBuffer的区别

String 是一个常量即一旦创建不可更改输出结果为 helloworldjeok 看似 string变量name的值改变了其实此name非彼name 输出结果为 sex hello worldjeok name hello worl
ocaml学习随笔-1

utop let rec my listprint items match items with first the rest gt printf s n first my listprint the rest gt val my list
React入门笔记（二）

React入门笔记二 1 前情回顾 2 组件 3 视频教程地址 1 前情回顾书接上回 React入门笔记一主要介绍React的基本特点虚拟dom的实现原理利用包管理工具搭建基本的React单页面引用等如果你跳过了前面的项目配置
Regular Expression实现

主要分2大块核心部分就是一个NFA 只支持标准正则的操作 concatenation union iteration 限定上限的iteration 对应的meta character只有 upper 扩展部分这部分是把扩展正则表达式转

Regular Expression实现

Regular Expression实现 的相关文章

随机推荐

热门标签

Regular Expression实现的相关文章