字符串匹配算法0-基本概念

2023-11-17

字符串匹配的算法在很多领域都有重要的应用，这就不多说了。

我们考虑一下算法的基本的描述：给定大小为σ字母表Σ上的长度为n的文本t和长度为m的模式p，找出t中所有的p的出现的地方。

一个长度为m的串p表示为一个数组p[0...m-1]，这里m≥0。当然，m=0时，表示空串，用ε表示。p的第i+1个字符用p[i]表示，这里0≤i<m。类似，p[i...j]表示p的子串，第i+1个字符到j+1个字符。0≤i≤j<m。如果i＞j，p[i...j]=ε。p[i...j]=p[max(i,0), min(j,m-1)]。

字符串有个连接操作，就是把两个字符串串成一个大的字符串，精确的定义如下：假设u是一个长度为n的字符串，表示为u[0...n-1]，v是一个长度为m的字符串，表示为v[0...m-1]，u和v的连接uv是一个新的字符串，长度为n+m。设这个新字符串为w，那么有u[0...n-1]=w[0...n-1]，v[0...m-1]=w[n...n+m-1]。

事先申明一下，下面提到的词，前缀，后缀，子串，边界，周期等实际上都是字符串，只不过是侧重点不同罢了。

前缀（prefix）：如果存在一个词（word） v，满足 uv = w，则称u是w的前缀；

后缀（suffix）：如果存在一个词v，满足 uv = w，则称v是w的后缀；

注意到u，v都可能是ε，因此w既是w的前缀，也是w的后缀。

子串（substring）或者因子（factor）如果存在两个词u，v，满足uzv = w，则称z是w的子串或者因子；一个子串u如果既是p的前缀，也是p的后缀，则称为p的边界（border）。

周期（periodic）对于i，0 i <m-p, 有 w[i]=w[i+p]，则称p是w的周期，最小的周期记为per（w）。一个词w称为基本的（basic）如果它不能写成另一个词的幂：即不存在词z和整数k满足w=z^k。

一个串p的逆（reverse）记成p，是把p的字母从最后一个开始，到第一个依次连接起来，如果串为p[0...m-1]，则它的逆为p[m-1]p[m-2]...p[1]p[0]。

Suff(p)表示串p的前缀的集合。fact(p)为p的因子的集合。

对于文本t和模式p，如果p[0]对齐t[s]，p[1]对齐t[s+1]，...，p[i]对齐t[s+i]，对于i=0,...,m-1，那我们说p在t中位移为s。这时子串t[s...s+m-1]叫做文本的当前窗口。如果t[s...s+m-1]=p，我们说位移s是有效的。那么显然字符串匹配的问题就可以表述为在文本t中找到p的所有有效位移。

大部分的字符串匹配算法工作的方法如下。首先通过一个大小为m的窗口来扫描文本t。对于每个窗口，检查是否与模式p相等（可以通过依次比较窗口和p的每个字符是否相等来判断，或者其他什么方法）。如果窗口和p相同，或者不匹配，那么向右移动窗口到下一个特定位置继续比较。每次比较叫做一次attempt。这种机制通常叫做滑动窗口机制。窗口最初的位置为0（在字符串的最左边），然后向右滑动窗口，直到窗口超出了文本的最右边的边界为止。

一般有三种基本的搜索方法。

前缀搜索:在搜索窗口内从前向后（沿着文本的正向）逐个读入文本字符，查找窗口中的文本和模式串的最长公共前缀，如KMP算法。

后缀搜索：在搜索窗口内从后向前（沿着文本的反向）逐个读入文本字符，查找窗口中的文本和模式串的最长公共后缀，如Boyer-Moore算法。

子串搜索：在搜索窗口内从后向前（沿着文本的反向）逐个读入文本字符，搜索满足如下条件的最长字符串u：u既是窗口文本的后缀，也是模式的子串，如Karp-Rabin算法。

转载于:https://www.cnblogs.com/frank-van/p/3421928.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

字符串匹配算法0-基本概念的相关文章

对象的初始化和清理

对象的初始化和清理构造函数和析构函数对象的初始化和清理也是两个非常重要的安全问题一个对象或者变量没有初始状态对其使用后果是未知同样的使用完一个对象或变量没有及时清理也会造成一定的安全问题 c 利用了构造函数和析构函数解决上述问
visual studio2019创建解决方案，并在一个解决方案中包含多个项目

系列文章目录文章目录系列文章目录前言一使用步骤前言之前一直使用visual studio2019一直都是一个解决方案下面包含一个工程这次写一个网络同步的模块具体使用boost的asio模块我们需要建立一个解决方案一个
使用slickedit调试开源代码

slickedit linux下的神器啊阅读代码堪比 source insight 调试代码堪比 visual studio nginx优秀的web服务器因为其具有多进程后台进程的特点因此本文选择以此为例讲解slickedit如何对
Java中的排序算法

冒泡排序核心思想冒泡排序核心思想冒泡排序 Bubble Sort 又被称为气泡排序或泡沫排序它是一种较简单的排序算法它会遍历若干次要排序的数列每次遍历时它都会从前往后依次的比较相邻两个数的大小如果前者比后者大则交换它们的
LeetCode题解——394. 字符串解码

题目相关题目链接 LeetCode中国 https leetcode cn com problems decode string 注意需要登录题目描述给定一个经过编码的字符串返回它解码后的字符串编码规则为 k encoded st
昨晚做梦面试官问我三色标记算法

本文已收录至GitHub 推荐阅读 Java随想录微信公众号 Java随想录原创不易注重版权转载请注明原作者和原文链接文章目录三色标记算法增量更新原始快照某天爪哇星球上一个普通的房间正在举行一场秘密的面试面试官我
Sql server 存储过程加密

本方法可用于加密SQL存储过程函数或者触发器使用 WITH ENCRYPTION 选项 WITH ENCRYPTION 子句对用户隐藏存储过程的文本例子 IF OBJECT ID N Pro Encrypt Test IS NOT N
PySide6-控件教程-005-QLabel标签控件-内边距、缩放、伙伴关系

QLabel 标签控件本文摘录自我的开源教程 PySide6 代码式教程 QLabel CSDN 平台仅做镜像答疑纠错请至 GitHub 提交 issue 内边距 QLabel还可以调整内边距启用内容缩放以更细致地调节显示效果 s
与游戏世界交互作业

一编写一个简单的鼠标打飞碟 Hit UFO 游戏游戏内容要求游戏有 n 个 round 每个 round 都包括10 次 trial 每个 trial 的飞碟的色彩大小发射位置速度角度同时出现的个数都可能不同它们由该 ro
如何将Python项目部署到新电脑上运行？

如何将Python项目部署到新电脑上运行在工作中可能需要在新服务器上部署项目代码例如新增服务器把测试环境的代码部署到生产环境等在生活中也会遇到换新电脑需要将自己在旧电脑上写的项目代码拷贝到新电脑上运行本文将这个过程中的关
SSH版本信息可被获取漏洞解决方法CVE-1999-0634

直接执行 cd etc touch ssh banner change echo Version is empty gt gt etc ssh banner change cd etc ssh cp sshd config sshd con
log4j漏洞复现

第一步下载marshalsec 源码进行编译 https github com mbechler marshalsec 下载后进行编译打包 mvn clean package DskipTests 得到jar文件在这里插入图片描述第二
Stable Diffusion 系列教程

目录 1 提示词基本的规则 2 提示词分类 2 1内容性提示词 2 2 画风艺术派提示词 2 3 画幅视角 2 4画质提示词 3 反向提示词 3 1 内容性反向提示词 3 2 画质性反向提示词 4 实例分析 5 权重 5 1 方法一 5
无线传感网必知必会

一填空题传感器网络三大基本要素传感器感知对象用户观测者传感器节点的基本功能模块包括数据采集模块数据处理和控制模块通信模块供电模块四个其中通信模块能量消耗最大传感器节点通信模块的工作模式有发送接收空闲睡
java七大排序——7_归并排序

归并排序将数组分为2块再到每一小块再分为两块直到最后一个元素为一块然后进行有序数组合并最终合并为一个有序数组代码实现 public static void mergeSorts int array mergeSortsInter
软件设计师--结构化开发

结构化开发耦合真题内聚真题设计原则真题系统文档真题数据流图数据流图基本数据元素外部实体数据存储加工数据流父图子图平衡加工既要有输入数据流也要有输出数据流数据守恒真题数据字典真题杂题精选耦合真题
[1051]python yagmail发邮件

文章目录安装开通SMTP服务常用邮箱host以及port yagmail 可以更简单的来实现自动发邮件功能 github项目地址 https github com kootenpv yagmail 安装 pip install yag
备战金九银十： GitHub 上标星 46k+的《10 万字Java面试总结》，助你搞定面试官

不论是校招还是社招都避免不了各种面试笔试如何去准备这些东西就显得格外重要不论是笔试还是面试都是有章可循的我这个有章可循说的意思只是说应对技术面试是可以提前准备运筹帷幄之后决胜千里之外不打毫无准备的仗我觉得大家可以先从下面几
python tkinter 点击按钮选择文件，返回文件路径

关于python tkinter 点击按钮选择文件返回文件路径这个方法我找了好几天终于曲线救国实现了首先分为两步 1 设计对话框选择文件下面的代码搞了好几天才发现全局变量的获取必须放在root mainloop的最后反正网上
MAC软件推荐（Java方向）

MAC软件推荐 Tabby 终端控制工具 keka 解压工具 typora Markdown工具 QuickRedis Redis视图工具 UTM 虚拟机 Navicat Premium 数据库工具 Adobe Photoshop CC 2

随机推荐

Android-App的设计架构经验谈，终获offer

前言想要成为一名优秀的Android开发你需要一份完备的知识体系在这里让我们一起成长为自己所想的那样学算法真的很痛苦虽然大数据现在很火但找到适合自己定位的职业也未尝不是一种合理选择投百度的经历非常坎坷想写出来和大家分享一下
runtimeService 运行时服务组件

在Activiti中启动一个流程后会创建一个流程实例 ProcessInstance继承Execution 两个都是接口每个流程实例至少会有一个执行流 Execution 当流程实例没有流程分支时一般情况下只会存在一个执行流假设出
计算机采用二进制每秒,计算机为什么采用二进制

计算机为什么采用二进制 2018 09 12 电脑为什么要采用二进制计算计算机中的一切计算都是用二进制进行的平时我们用的十进制是逢十进一二进制则是逢二进一我们用的算盘事实上有两种用法一种是十进制一种是十六进制算盘中代表五的
嵌入式Linux下用C语言写后端接口——CGI实现

文章目录简介实验环境下载CGIC库源码配置CGIC编译测试CGI接口编写一个简单的获取表单的CGI接口测试login cgi CGIC接口API 简介 CGI Common Gateway Interface 公共网关接口是
Python更改文件的编码格式

Python更改文件的编码格式 import os from chardet universaldetector import UniversalDetector def change encode file change 2 type d
MySQL Flashback 闪回功能详解

1 简介 mysqlbinlog flashback 闪回用于快速恢复由于误操作丢失的数据在DBA误操作时可以把数据库恢复到以前某个时间点或者说某个binlog的某个pos 比如忘了带where条件的update delete操作
FreeType简介及在vs2010的编译使用

FreeType库是一个开源高质量可扩展可定制可移植的字体引擎它提供统一的接口来访问多种字体格式文件包括点阵字 TrueType OpenType Type1 CID CFF Windows FON FNT X11 PCF等 F
2021.11.30 面试题

1 请你介绍一下map的分类和常见的情况 java为数据结构中的映射定义了一个接口java util Map 它有四个实现类分别是HashMap Hashtable LinkedHashMap 和TreeMap Map主要用于存储健值对
simulink仿真 adc 采样ePWM输出例程

新建文件夹并用matlab打开写入这两个模块配置 ADC 配置ePWM 不使能B 关了就行其他的默认即可配置烧录连线示波器接pwma1 和地 adc chanl1接 3 3v或者 0 3 3 都行转化是 x 3 3 2 12
backtrace函数与assert断言宏封装

这篇文章是在阅读 sylar 框架时对断言宏的封装所做的总结在实际开发中我们经常会遇到一种境况如果程序执行的不是我们想要的正确结果需要程序立即中断执行我们希望得到其有效的错误信息比如其出现错误的函数文件代码行号和参数文本
iOS App icon、启动页、图标规范

原文 iOS App icon 启动页图标规范以下内容都是我在做App时通过自己的经验和精品的分析得来的希望会帮助到你但是有时个别情况也要个别分析要活学活用一 App Icon 在设计iOS App Icon时设计师不需要切圆
招募 AIGC 训练营助教 @上海

诚挚邀请对社区活动感兴趣的你成为我们近期开展的训练营助教与我们共同开启这场创新之旅助教需要参与协助策划和组织训练营活动协助招募和筛选学员协助制定训练营的宣传方案负责协调和组织各项活动助教可获得 AIGC知识库获得社区提供的
服务器端Session、客户端Session和Cookie的区别

1 Session其实分为客户端Session和服务器端Session 当用户首次与Web服务器建立连接的时候服务器会给用户分发一个 SessionID作为标识 SessionID是一个由24个字符组成的随机字符串用户每次提交页面浏览
微型小程序页面跳转加携带数据

一 WXML中
列表数据转树形数据 trees-plus 使用方法（支持typescript）

trees plus Operations related to tree data Install npm i trees plus S Import import TreesPlus from trees plus Usage impo
如何使用DLL函数动态加载-静态加载

公司里的项目里用到加密解密使用的是客户指定的DLL库来加密解密开始我按照以前的方法来使用DLL库这里也介绍下吧虽然网上很多一般动态加载DLL的步骤如下 HINSTANCE DLL库实例名 LoadLibrary T DLL库名
高德api 实现根据中文地址地图打点弹窗
diffusion models笔记

ELBO of VDM Understanding 1 中讲 variational diffusion models VDM 的 evidence lower bound ELBO 推导时 53 式有一个容易引起误会的记号
Promethus(普罗米修斯）安装与配置（亲测可用）

1 普罗米修斯概述 Prometheus 是由go语言 golang 开发是一套开源的监控报警时间序列数据库的组合适合监控docker容器 Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包自201
字符串匹配算法0-基本概念

字符串匹配的算法在很多领域都有重要的应用这就不多说了我们考虑一下算法的基本的描述给定大小为字母表上的长度为n的文本t和长度为m的模式p 找出t中所有的p的出现的地方一个长度为m的串p表示为一个数组p 0 m 1 这里m 0 当然

字符串匹配算法0-基本概念

字符串匹配算法0-基本概念 的相关文章

随机推荐

热门标签

字符串匹配算法0-基本概念的相关文章