KMP算法——字符串匹配问题

2023-05-16

贴上原址:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

感觉这篇文章讲得很不错,很容易懂,比算法导论上好懂多了。。。

字符串匹配是计算机的基本任务之一。

举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?

许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。

这种算法不太容易理解,网上有很多解释,但读起来都很费劲。直到读到Jake Boxer的文章,我才真正理解这种算法。下面,我用自己的语言,试图写一篇比较好懂的KMP算法解释。

1.

首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较。因为B与A不匹配,所以搜索词后移一位。

2.

因为B与A不匹配,搜索词再往后移。

3.

就这样,直到字符串有一个字符,与搜索词的第一个字符相同为止。

4.

接着比较字符串和搜索词的下一个字符,还是相同。

5.

直到字符串有一个字符,与搜索词对应的字符不相同为止。

6.

这时,最自然的反应是,将搜索词整个后移一位,再从头逐个比较。这样做虽然可行,但是效率很差,因为你要把"搜索位置"移到已经比较过的位置,重比一遍。

7.

一个基本事实是,当空格与D不匹配时,你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。

8.

怎么做到这一点呢?可以针对搜索词,算出一张《部分匹配表》(Partial Match Table)。这张表是如何产生的,后面再介绍,这里只要会用就可以了。

9.

已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:

  移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4,所以将搜索词向后移动4位。

10.

因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位。

11.

因为空格与A不匹配,继续后移一位。

12.

逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。

13.

逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。

14.

下面介绍《部分匹配表》是如何产生的。

首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

15.

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

16.

"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。

最后copy上代码:

// Compute Prefix function            
void CptPfFunc( ElemType Pattern[], int PrefixFunc[] )                
{      
        register int iLen = 0;    // Length of Pattern[]            
        while( '\0' != Pattern[iLen] )            
                iLen++;            
                    
        int LOLP = 0;     // Lenth of longest prefix            
        PrefixFunc[1] = 0;            
         
        for( int NOCM=2; NOCM<iLen+1; NOCM++ )     // NOCM represent the number of characters matched            
        {            
                while( LOLP>0 && (Pattern[LOLP] != Pattern[NOCM-1]) )            
                        LOLP = PrefixFunc[LOLP];            
                if( Pattern[LOLP] == Pattern[NOCM-1] )            
                        LOLP++;            
                PrefixFunc[NOCM] = LOLP;            
        }            
}            
    
void KMPstrMatching( ElemType Target[], ElemType Pattern[] )            
{            
        int PrefixFunc[MAX_SIZE];            
        register int TarLen = 0;            
        register int PatLen = 0;            
         
        // Compute the length of array Target and Pattern            
        while( '\0' != Target[TarLen] )            
                TarLen++;            
         
        while( '\0' != Pattern[PatLen] )            
                PatLen++;            
                    
        // Compute the prefix function of Pattern            
        CptPfFunc( Pattern, PrefixFunc );            
         
        int NOCM = 0;     // Number of characters matched            
         
        for( int i=0; i<TarLen; i++ )            
        {            
                while( NOCM>0 && Pattern[NOCM] != Target[i] )            
                        NOCM = PrefixFunc[NOCM];            
                if( Pattern[NOCM] == Target[i] )            
                        NOCM++;            
                if( NOCM == PatLen )            
                {            
                        cout<<"KMP String Matching,pattern occurs with shift "<<i - PatLen + 1<<endl;            
                        NOCM = PrefixFunc[NOCM];            
                }            
        }            
}     

说实话我感觉代码挺难懂的。。。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

KMP算法——字符串匹配问题 的相关文章

随机推荐

  • Android Studio创建项目

    一 创建新项目 二 选择空白页项目类型 三 设置项目信息 四 下载SDK 只有初次创建时会下载 下载完成 五 初始化项目工程 初始化完成
  • 解决MATLAB"尝试将 SCRIPT open 作为函数执行"的问题

    解决MATLAB 34 尝试将 SCRIPT open 作为函数执行 34 的问题 当关闭MATLAB一个脚本的时候 xff0c 再次双击打开 xff0c 会出现下图的情况 xff1a 脚本无法打开 xff0c 只能用实时脚本的方式打开 x
  • SMM(Spring+SpringMVC+MyBatis)

    Spring amp SpringMVC amp MyBatis 一 Spring的体系结构 自下往上 xff1a TestCore Container 核心容器 Beans xff1a 容器Core xff1a 核心Context xff
  • 二、SpringBoot基础配置

    二 SpringBoot基础配置 二 SpringBoot基础配置1 复制工程2 属性配置3 配置文件分类3 1 配置文件优先级3 2 教你一招 xff1a 自动提示功能消失解决方案 4 yaml文件5 yaml数据读取5 1 读取单一数据
  • FSK和ASK区别

    简介 市面上的遥控器常见的有FSK和ASK两种 xff0c 一种是有应答 xff0c 一种无应答 xff0c 现将主要区别罗列如下 FSK和ASK区别 FSK xff1a 频率调制 ASK xff1a 振幅调制 ASK IC一般只发射不接受
  • 关闭集群机器命令脚本

    背景 没有脚本时 xff0c 关闭集群里的Linux机器 xff0c 需要分别在每台机器执行关机命令 xff0c 费时费力 hadoop 64 node2 sudo init 0 hadoop 64 node3 sudo init 0 ha
  • ubuntu系统如何建立可执行文件

    第一步 xff1a 在桌面建立一个新建文档 gt 空文件 xff0c 文档重命名为test txt 第二步 xff1a 打开test txt xff0c 在文档的最顶端写入 bin bash xff08 独占一行 xff09 如 xff1a
  • 自己动手写操作系统(高清图书+源代码)分享

    很喜欢 自己动手写操作系统 这本书 xff0c 但现在这本书已经绝版了 在这里分享一下这本书的高清电子版和源代码 xff0c 感兴趣的人可以下载一下 链接 xff1a https pan baidu com s 1lPXg Airu2NFj
  • Android Studio闪屏页

    现在很多 App 启动都有闪屏页和功能引导页 xff0c 那么接下来我们就来先看看闪屏页是怎么实现的吧 首先创建一个新的工程 xff0c 然后创建一个新的Empty Activity xff0c 在这我就命名为SplashActivity
  • layui图标显示方框

    解决方法 检查一下class里面是不是少了一个图标的默认class layui icon
  • win10下python代码打包成exe文件并作为服务后在后台运行,开机自启

    1 pip安装pyinstaller pip install pyinstaller 2 打包python文件 打开cmd xff0c cd到项目文件夹 xff0c 并将主文件 xff08 我这里是web py xff09 用pyinsta
  • ubuntu为软件设定图标

    第一步 xff1a 进入到usr share applications 文件夹下 cd usr share applications 第二步 xff1a 创建桌面图标 xff1a sudo touch clion desktop 第三步 x
  • ubuntu18.04.1 开机默认进入命令行模式/用户图形界面

    一 开机默认进入命令行模式 1 输入命令 xff1a sudo systemctl set default multi user target 2 重启 xff1a reboot 要进入图形界面 xff0c 只需要输入命令startx 从图
  • ftp上传图片损坏怎么办?

    ftp不适用于普通的传输文件 xff0c 必须使用二进制的传输格式才可以保证图片上传不被损坏 添加这两行代码即可 xff01
  • python基础-古诗词填词游戏

    很久没写爬虫了 xff0c 利用这次接单来顺便写一下爬虫 文章目录 1 项目需求2 思路梳理3 诗句处理遇到的问题有4 目录结构5 实现步骤6 收获7 不足 1 项目需求 用python实现古诗词填词游戏 诗词库的组成 初中古诗 备注 xf
  • 谈谈如何确保数据的一致性

    谈谈如何确保数据的一致性 数据库必须具备的四个特性背景什么是接口的幂等性 xff1f 幂等性在哪里会用到 xff1f 技术方案总结 参考https blog csdn net u011635492 article details 81058
  • vmware esxi 虚拟机管理常用命令

    1 查看所有虚拟机列表 vim cmd vmsvc getallvms 2 挂起虚拟机 vim cmd vmsvc power suspend 13 命令行中的数字都是为vmid xff0c 以下同理 xff01 3 恢复或打开虚拟机 vi
  • python+tensorflow CNN卷积神经网络手写字体识别

    导入所需的库模块 xff1a span class token keyword import span os span class token keyword import span cv2 span class token keyword
  • 报错记录:Error in grid.Call(C_stringMetric, as.graphicsAnnot(x$label))

    今天在跑monocle2 xff0c 出图时报了个错 Fibroref5k lt setOrderingFilter Fibroref5k disp genes p1 lt plot ordering genes Fibroref5k p1
  • KMP算法——字符串匹配问题

    贴上原址 xff1a http www ruanyifeng com blog 2013 05 Knuth E2 80 93Morris E2 80 93Pratt algorithm html 感觉这篇文章讲得很不错 xff0c 很容易懂