Python：Rabin-Karp 算法哈希

2023-11-24

我为了好玩而实现 Rabin-Karp 算法。我遇到了这个伪代码：

    RABIN -KARP -MATCHER (T, P, d, q)
    1 n = T.length
    2 m = P.length
    3 h = d^(m-1) mod q
    4 p=0
    5 t= 0
    6 for i = 1 to m
    / preprocessing
    /
    7 p = (dp + P [i]) mod q
    8 t = (dt + T [i]) mod q
    9 for s = 0 to n-m
    / matching
    /
    10     if p == t
    11         if P [1... m] == T [s + 1...s + m]
    12             print “Pattern occurs with shift” s
    13     if s < n-m
    14         t  = (d(t-T[s + 1]h) + T [s + m + 1]) mod q

我在 Python 2.7 中实现如下：

def Rabin_Karp_Matcher(text, pattern, d, q):
    n = len(text)
    m = len(pattern)
    h = pow(d,m-1)%q
    p = 0
    t =0
    result = []
    for i in range(m): # preprocessing
        p = (d*p+ord(pattern[i]))%q
        t = (d*t+ord(text[i]))%q
    for s in range(n-m):
        if p == t: # check character by character
            match = True
            for i in range(m):
                if pattern[i] != text[s+i]:
                    match = False
                    break
            if match:
                result = result + [s]
        if s < n-m:
                t = (d*(t-ord(text[s+1])*h)+ord(text[s+m]))%q #index out of bounds here
    return result

其中结果是包含模式文本中的索引的列表。

我的代码无法在 3141592653589793 中找到 26 我怀疑这与伪代码第 14 行定义的哈希码有关。任何人都可以帮忙解决这个问题吗？

我传入了以下参数：

P =“26” T =“3141592653589793” d = 257 q = 11

P 和 T 必须是字符串/字符数组

这是您的代码的工作版本：

def Rabin_Karp_Matcher(text, pattern, d, q):
    n = len(text)
    m = len(pattern)
    h = pow(d,m-1)%q
    p = 0
    t = 0
    result = []
    for i in range(m): # preprocessing
        p = (d*p+ord(pattern[i]))%q
        t = (d*t+ord(text[i]))%q
    for s in range(n-m+1): # note the +1
        if p == t: # check character by character
            match = True
            for i in range(m):
                if pattern[i] != text[s+i]:
                    match = False
                    break
            if match:
                result = result + [s]
        if s < n-m:
            t = (t-h*ord(text[s]))%q # remove letter s
            t = (t*d+ord(text[s+m]))%q # add letter s+m
            t = (t+q)%q # make sure that t >= 0
    return result
print (Rabin_Karp_Matcher ("3141592653589793", "26", 257, 11))
print (Rabin_Karp_Matcher ("xxxxx", "xx", 40999999, 999999937))

输出是：

[6]
[0, 1, 2, 3]

第一步，检查是否text[0..m] == pattern。在第二步中，您要检查是否text[1..m+1] == pattern。因此你删除了text[0]来自散列（目前它乘以您预先计算的h): t = (t-h*ord(text[s]))%q。然后，添加text[m] to it: t = (t*d+ord(text[s+m]))%q。在下一步中，您将删除text[1]并添加text[m+1]，等等。这t = (t+q)%q线在那里是因为负数模q产生范围内的余数(-q; 0]，我们希望它在范围内[0; q).

请注意，您要检查总共n-m+1子串，不是n-m，因此正确的循环是for s in range(n-m+1)。通过第二个示例检查（在“xxxxx”中查找“xx”）。

另外值得注意的是：

线路h = pow(d,m-1)%q可能会太慢，如果m很大。最好对结果取模q在每个之后m-2乘法。或者直接使用内置的方式：h = pow(d,m-1,q)，正如@oBrstisf8o 在评论中所建议的。
该算法在最坏情况下仍然是O(nm)。和text="a"*100000 and pattern="a"*50000，它会找到 50001 个文本子字符串与模式匹配的位置，并且会逐个字符地检查它们。如果您希望代码在这种极端情况下能够快速运行，则应该跳过逐个字符的比较，并找到一种处理误报的方法（即哈希值相等但字符串不相等）。选择一个大素数q可能有助于将误报的可能性降低到可接受的水平。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

Algorithm

patternmatching

Python：Rabin-Karp 算法哈希的相关文章

从 C 中的 char* 获取单个字符

有没有办法在 C 中逐字符遍历或从 char 中提取单个字符考虑以下代码现在获得单个角色的最佳方式是什么建议我一种不使用任何字符串函数的方法 char a STRING 其他方式 char i for i a i i i points
计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
在 python + Flask + Gunicorn + nginx + Compute Engine 应用程序中从 Google Cloud Storage 读取文件失败

在 python Flask Gunicorn nginx Compute Engine 应用程序中读取从 Google Cloud Storage 下载的文件失败代码链接 https github com samuq CE test h
Python 可以使用单独的媒体播放器打开 mp3 文件吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否可以开一个mp3Python 中的文件可以使用Popen 我并不是要在程序中运行它我的意思是作为媒体播放器中的一个单独窗口或其
如何更改条形图上的 y 轴限制？

我有一个df 我从中索引了europe n我绘制了一个条形图 europe n r 5 c 45 looks like this df Country string df Population numeric 变量 plt bar df C
绘图：仅保留最相关的数据

为了节省带宽并且不用自己生成图片图表我计划使用 Google 的图表 API http code google com apis chart http code google com apis chart 它的工作原理是简单地发出一个
肥皂服务的良好框架是什么？

我正在寻找一个用于肥皂的好框架service 我更喜欢使用Pythonic框架但是在查看了soaplib rpclib 太不稳定 SOAPy 不适用于2 7 和ZSI 太令人困惑之后我不确定这是否可能我对使用另一种语言感到满意尽
Python MySQL 模块

我正在开发一个需要与 MySQL 数据库交互的 Web 应用程序但我似乎找不到任何真正适合 Python 的模块我特别寻找快速模块能够处理数十万个连接和查询所有这些都在短时间内完成而不会对速度产生重大影响我想我的答案将是游戏领
更改Python pylab玫瑰/极坐标图中图例标题的字体大小

我正在尝试更改玫瑰图或极地图上现有图例标题的字体大小大部分代码是由不在的其他人编写的我已经添加 ax legend title legend title setp l get title fontsize 8 添加标题 legend
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
Python变量赋值问题

a b 0 1 while b lt 50 print b a b b a b 输出 1 2 4 8 16 32 wheras a b 0 1 while b lt 50 print b a b b a b 输出正确的斐波那契数列 1 1
不重复的Python组合

我有一个数字列表我想从中进行组合如果我有清单 t 2 2 2 2 4 c list itertools combinations t 4 结果是 2 2 2 2 2 2 2 4 2 2 2 4 2 2 2 4 2 2 2 4 但我想得到
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
避免在列表理解中计算相同的表达式两次[重复]

这个问题在这里已经有答案了我在列表理解中使用一个函数和一个 if 函数 new list f x for x in old list if f x 0 令我恼火的是这个表达f x 在每个循环中计算两次有没有办法以更清洁的方式做到这一点
Beautiful Soup 获取动态表数据

我有以下代码 url https www basketball reference com leagues NBA 2017 standings html all expanded standings html urlopen url so
Python 类方法的示例用例是什么？

我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂我正在寻找 Pytho
检测图像是否损坏或损坏

我需要以编程方式检查用户在我的应用程序上选择作为壁纸的图像是否已损坏或损坏基本上我为用户提供了选择自己的图像作为壁纸的选项现在当图像加载时我只想检查它是否已损坏如果您正在寻找 PHP 解决方案而不是 javascript 解决方案
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
在 python 中使用递归替代 len()

作为 CS1301 问题的一部分我正在尝试使用递归编写一个函数该函数将执行与 len 完全相同的操作但是我有两个问题我正在使用全局变量但我在课程中还没有学到这一点 cs1301 自动评分器告诉我我的函数返回 26 而不是 13
用于桌面数据库应用程序的 Python 框架

是否有一个框架可以为Python开发桌面数据库应用程序一些带有CRUD屏幕的屏幕我正在寻找类似于 Windows 窗体的东西能够将 TextField Combos 和其他 UI 隐喻与datasets连接到关系数据库例如 MySQL

随机推荐

实体框架，视图而不是插入触发器。无法在视图中插入行

我无法将实体插入到映射视图中我得到的错误是存储插入或删除语句影响了意外数量的行 0 我知道如何使用存储过程但对我来说更有趣的是尝试在插入行视图事件上使用而不是触发器的解决方案在 t sql 代码中删除更新或插入时我没有收到任何
新的 Android 12+ MaterialSwitch 和 androidx.preference

所以我正在更新我的应用程序以完全支持 Monet 和 Material You 指南官方网站提到开关的新设计我用了一下结果是这样的我有一个使用 Androidx 首选项库的首选项屏幕在撰写本文时提供了最新版本我发现对开关进行主题
使用 Spring Security 记录登录

我想记录我的网络应用程序中的每次登录我能够访问通过以下方式进行的登录UsernamePasswordAuthenticationFilter但我不知道如何记录使用记住我功能登录的用户我尝试覆盖 createSuccessfulAuthe
如何用 jquery 中使用的另一个字符替换“美元”符号？

如何将 jquery 中使用的美元符号 jquery 的别名更改为另一个字符例如 id css height 210px 我想将其更改为 id css height 210px 你无法改变 to 因为不是有效的标识符但你可以将其更改
即使设置了权限也无法写入 Android 外部存储

在我使用 Xamarin Forms 的 Android 10 0 Q 应用程序中我已在清单中正确设置
在 Linux 上如何通过名称而不是 PID 来终止进程？ [复制]

这个问题在这里已经有答案了有时当我尝试启动 Firefox 时它会显示 Firefox 进程已在运行所以我必须这样做 jeremy jeremy desktop ps aux grep firefox jeremy 7451 25
如何在 Perl 中构建独立于操作系统的文件路径（包括可选的 Windows 驱动器号）？

我需要在 Perl 脚本内构建一个文件路径我应该使用哪个路径分隔符来允许我的脚本在 Windows 和 Unix 上运行请记住 Windows 需要驱动器号你要文件规格 s catpath catpath Takes volume
用 Javascript 编写组合和排列计算器的最有效方法

我有一个数学网站http finitehelp com教学生有限数学我认为包含一个计算器会很酷所以我制作了一个用于 Javascript 中的组合和排列的计算器实时计算器位于http finitehelp com finite cal
pySpark forEachPartition - 代码在哪里执行

我正在使用 2 3 版本的 pySpark 在我当前的开发系统中无法更新到 2 4 并且有以下关于对于每个分区首先是一些背景信息据我了解 pySpark UDFs强制 Python 代码在 Python 实例中的 Java 虚拟机 JV
Rails 中带有 jquery params 的 link_to

我想在我的 Rails 应用程序中进行就地搜索我使用了带有原型的button to remote 但现在我使用的是JQuery 所以我更改为link to 这是我的代码我想将地址文本字段传递到我的控制器但输出不是我所期望的 mycon
DataGridView设置行高不起作用

尝试像这样设置 RowHeight 在代码中 dgvTruckAvail RowTemplate Height 48 不起作用我还尝试设置我添加的每一列的高度不起作用这是网格属性 this dgvTruckAvail AllowUse
d3.js 使用多列从 csv 文件中过滤

我想使用 csv 中的多个列值进行过滤我首先想按城市过滤然后按关键性列过滤我想过滤重要性高中低如何使用 AND OR 进行过滤 City 和 Criticality 是复选框根据我想要过滤相应 csv 列中的数据的选择寻找
如何在 32 位平台上调用 GetWindowLongPtr 和 SetWindowLongPtr？

我想 P 调用获取窗口长指针 and 设置窗口长指针并且我看到有关它们的相互矛盾的信息有消息称在 32 位平台上 GetWindowLongPtr 只是一个调用 GetWindowLong 的预处理器宏并且 GetWindowLon
Java：如何设置 htmlunit

我对 Java 是个菜鸟但我想尝试一下 htmlunit 我使用 netbeans 作为 IDE 并创建了一个项目文件夹 hu1 以下是该文件夹的结构 hu1 gt nbproject gt src gt hu1 gt test 现在我
带有共享 ID 的 JPA @OneToOne —— 我可以做得更好吗？

我正在使用一个我不想更改的现有架构该架构在表 Person 和 VitalStats 之间具有一对一的关系其中 Person 有一个主键 VitalStats 使用相同的字段作为 Person 的主键和外键这意味着它的值是相应 PK
如何处理 FirebaseAuthUserCollisionException

我开始得到FirebaseAuthUserCollisionException当我尝试登录时出现异常Facebook in my Android应用 com google firebase auth FirebaseAuthUserColl
如何将形状文件导入MySQL

我需要将 shape 文件中的空间数据导入 MySQL 表中我能够导入到 PostGreSQL 中 MySQL 的任何指针我需要MySQL表中的数据安装 FWtool 后尝试此操作 ogr2ogr f MySQL MySQL data
为什么存在这些替代运算符表示

考虑这些替代运算符表示取自here Primary Alternative and and eq bitand bitor compl not not eq or or eq xor xor eq 为什么存在这些替代运算符表示我喜欢它们
dplyr：在 mutate 命令中使用过滤器、group_by [重复]

这个问题在这里已经有答案了我想在数据表中添加一列其中包含 y 的每个值除以 x 1 或 2 中相应条件的平均值其中 x2 1 对于以下数据其中 x 1 y 应除以 1 4其中 x 2 y 应除以 1 dt1 lt data tabl
Python：Rabin-Karp 算法哈希

我为了好玩而实现 Rabin Karp 算法我遇到了这个伪代码 RABIN KARP MATCHER T P d q 1 n T length 2 m P length 3 h d m 1 mod q 4 p 0 5 t 0 6 for

Python：Rabin-Karp 算法哈希

Python：Rabin-Karp 算法哈希 的相关文章

随机推荐

热门标签

Python：Rabin-Karp 算法哈希的相关文章